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Procede d'indexation et d'identification de documents 

multimedias 

La presente invention se rapporte aux procedes d'indexation et 
5 d'identification de documents multimedias. 

Du point de vue general, [Identification d'un document multimedia 
comporte deux phases : 

■ Une phase dite d'indexation, ou Ton cherche a caracteriser chaque 
document d'une base prealablement enregistree par un nombre fini de 

10 parametres pouvant facilement §tre stockes et manipules ulterieurement. 

■ Une phase dite de recherche, ou suite a une requ§te formulee par 
I'utilisateur, par exemple lldentification d'une image question, Ton cherche 
tous les documents multimedias similaires ou repondant a cette requete. 

II existe deja de nombreux procedes d'indexation damages qui 
15 mettent en oeuvre I'extraction des attributs de la forme des objets 
composants I'image s'ils existent, ainsi que ceux de la texture ou de la 
couleur de fond de I'image 

Toutefois, les procedes connus s'appliquent dans des domaines tres 
specialises ou impliquent le traitement d'un tres grand nombre 
20 d'informations qui conduisent a une complexity et une lenteur dans le 
traitement de ces informations. 

La presente invention vise a remeciier aux inconvenients precites et 
a fournir un procede d'indexation et d'identification de documents 
multimedias d'une application generate qui rationalise le processus de 
25 traitement et conduit a des temps de traitement plus courts tout en 
augmentant la qualite des resultats et leur fiabilite, ce qui permet 
notamment de proceder a des recherches efficaces par le contenu. 

Ces buts sont atteints conformement a I'invention, grace a un 
procede d'indexation de documents multimedias, caracterise en ce qu'il 
30 comprend les etapes suivantes : 

(a) identification et extraction pour chaque document de termes ti 
constitues par des vecteurs caracterisant des proprietes du document 
multimedia a indexer, telles que la forme, la texture, la couleur ou la 
35 structure d'une image, I'energie, le taux d'oscillataon ou des 
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informations frequentielles d'un signal audio, ou un groupe de 
caracteres d'un texte , 
(b) stockage des termes tj caracterisant des proprietes du document 
multimedia dans une base de termes comprenant P termes, 
5 (c) determination d'un nombre maximum N de concepts souhaites 
regroupant les termes ti les plus pertinents, N etant un nombre 
entier inferieur a P, et chaque concept q etant prevu pour regrouper 
tous les termes voisins du point de vue de leurs caracteristiques, 

(d) calcul de la matriee T de distances entre les termes ti de la base de 
10 termes, 

(e) decomposition de I'ensemble P des termes ti de la base de termes en 
N parties Pj (1 £ j<N) telles que P = PI UP 2 ~ UPj ... UP N , chaque 
partie Pj comprenant un ensemble de termes % et etant representee 
par un concept q, les termes ti etant repartis de telle facon que les 

15 termes les plus eloignes se trouvent dans des parties P ( , P m distinctes 

et les termes proches se trouvent dans la meme partie Pi, 

(f) structuration du dictionnaire de concepts de maniere a constituer un 
arbre binaire ou les feuilles contiennent les concepts q du 
dictionnaire et les nceuds de I'arbres contiennent les informations 

20 necessaires a la scrutation de I'arbre lors d'une phase d'identification 

d'un document par comparaison avec les documents precedemment 
indexes, et 

(g) construction d'une base d'empreintes constitute de I'ensemble des 
concepts q representant les termes t| des documents a indexer, 

25 chaque document etant associe a une empreinte qui lui est propre. 

De facon plus particuliere, on associe a chaque concept q de la 
base d'empreintes un ensemble d'informations comprenant le nombre NbT 
de termes dans les documents ou le concept q est present. 

30 Selon un aspect particulier et i'invention, pour chaque document ou 

un concept q est present, on enregistre une empreinte du concept q dans 
le document, cette empreinte comprenant la frequence d'occurrence du 
concept q, ('identification des concepts qui sont voisins du concept q dans 
le document et un score qui est une valeur moyenne des mesures de 

35 similarites entre le concept q et les termes tj du document qui sont les 
plus proches du concept q. 
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Avantageusement, le procede selon I'invention comprend une etape 
d'optimisation de la partition de I'ensemble P des termes de la base de 
termes pour decomposer cet ensemble P en M classes Q (1 < i <, M, avec 
M <, P), de maniere a reduire I'erreur de la repartition de I'ensemble P des 
5 termes de la base de termes en N parties (Pi, P2/... Pn) ou chaque partie Pi 
est representee par le terme tj qui sera pris comme concept q, I'erreur 

N 

commise e etant telle que e = ^e t . ou e u = 2 rf2 (*/»*y) est I'erreur 

<=i i tjsp, 

commise lorsqu'on remplace les termes tj d'une partie P ( par tj. 

Dans ce cas, le procede peut comprendre les etapes suivantes : 
10 (i) on decompose I'ensemble P de termes en deux parties Pi et P 2 ; 

(ii) on determine les deux termes les plus eloignes ti et tj de I'ensemble 
P correspondant a la plus grande distance Djj de la matrice T de 
distances ; 

(iii) pour chaque terme t* de I'ensemble P, on examine si la distance Dki 
15 entre le terme tket le terme ti est plus petite que la distance D% entre 

le terme tk et le terme tj, si c'est le cas on affecte le terme tk a la 
partie Pi et si ce n'est pas le cas on affecte le terme tk a la partie P 2 ; 

(iv) on itere I'etape (i) jusqu'a Pobtention du nombre N de points Pi 
souhaite et a chaque iteration on applique les etapes (ii) et (iii) sur 

20 les termes des parties Pi et P2. 

Le procede selon I'invention peut etre plus particulierement 
caracterise en ce qu'il comprend une optimisation a partir des N parties 
disjointes Pi, P 2/ ... Pn} de I'ensemble P ainsi que des N termes iti, t 2/ tN }■ 
qui les representent pour reduire I'erreur de decomposition de I'ensemble 

25 P en N parties, et en ce qu'il comprend les etapes suivantes : 

(i) calcul des centres de gravite Q des parties Pi 

(ii) calcul des erreurs eQ = ^d 2 (C { ,tj) et eti = ^d 2 (t lt tj) lorsqu'on 

t/ePI t/ePl 

remplace les termes tj de la partie P ( respectivement par Q et par tj, 

30 

(iii) comparaison de etj et eq et remplacement de ti par Q si eq < eti, 

(iv) calcul de la nouvelle matrice T de distances entre les termes tj de la 
base de termes et processus de decomposition de I'ensemble P des 
termes de la base de termes en N parties, sauf si une condition 
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d'arret est remplie avec 
commise a Pinstant t. 

Afin de faciliter la recherche et I'identlfication de documents, pour 
5 effectuer une structuration du dictionnaire de concepts/ on produit de 
facon iterative a chaque iteration une carte de navigation en commencant 
par scinder I'ensemble des concepts en deux sous-ensembles, puis en 
selectionnant un sous-ensemble a chaque iteration jusqu'a I'obtention du 
nombre de groupes souhaite ou jusqu'a ce qu'un critere d'arret soit 
10 satisfait. 

Le critere d'arret peut §tre caracteris£ par le fait que les sous- 
ensembles obtenus sont tous homogenes avec un ecart-type faible. 

De facon plus particuliere, lors de la structuration du dictionnaire de 
concepts, on determine des indicateurs de navigation a partir d'une 
15 matrice M = [ci, c 2/ ... c N ] e 9l p * N de I'ensemble C des concepts q e 9t p ou 
q represente un concept de p valeurs, selon les etapes suivantes : 

(i) on calcule un representant tvde la matrice M , 

(ii) on calcule la matrice de covariance M entre les elements de la 

matrice M et le representant wde la matrice M, 
20 (iii) on calcule un axe de projection udes elements de la matrice M, 

(iv) on calcule la valeur pi = d(u, Ci) - d(u, w) et on decompose 
I'ensemble de concepts C en deux sous-ensembles CI et C2 de la 
maniere suivante : 

jc, e CI si pi < 0 
\c, e C2 si pi > 0 



< seuil, ou ec t represente I'erreur 



(v) on stocke dans le nceud associe a C les informations {u, w, |pl|, p2} 
ou pi est le maximum de tous les pi <, 0 et p2 est le minimum de 
30 tous les pi > 0, I'ensemble des informations {u, w, |pl|, p2} 

constituant les indicateurs de navigation dans le dictionnaire de 
concept. 
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Selon un mode particulier de realisation, on analyse a ja fois les 
composantes structurelles et le complement de ces composantes 
structurelles constitue par les composantes texturales d'une image du 
document, et : 

5 

(a) lors de I'analyse des composantes structurelles de I'image 

(al) on precede a une repartition des zones frontieres des structures de 

I'image en differentes classes selon Porientation de la variation locale 

d'intensite de maniere a definir des elements de support structurel 
10 (ESS) de I'image, et 

(a2) on precede par analyse statistique a la construction de termes 

constitues par des vecteurs decrivant les proprietes locales et 

globales des elements de support structurels, 

15 (b) lors de I'analyse des composantes texturales de I'image 

(bl) on precede a une detection et une caracterisation parametrique 

d'une composante purement aleatoire de I'image, 
(b2) on precede a une detection et une caracterisation parametrique 
d'une composante periodique de I'image, 
20 (b3) on precede a une detection et une caracterisation parametrique 
d'une composante directionnelle de I'image, 

(c) on regroupe dans un nombre limite de concepts Pensemble des 
elements descriptifs de I'image constitues par d'une part les termes 
25 decrivant les proprietes locales et globales des elements de support 

structurels et d'autre part les parametres des caracterisations 
parametriques des composantes aleatoire, periodique et 
directionnelle definissant les composantes texturales de I'image, et 

30 (d) on definit pour chaque document une empreinte a partir des 
occurrences, des positions et des frequences desdits concepts. 
Avantageusement, les proprietes locales des elements de support 
structurels prises en compte pour la construction de termes comprennent 
au moins le type de support choisi parmi une bande lineaire ou un arc de 
35 courbe, les dimensions en longueur et largeur du support, la direction 
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principale du support et la forme et les proprieties statistiques des pixels 
constituant le support. 

Les proprietes globales des elements de support structured prises 
en compte pour la construction de termes comprennent au moins le 
s nombre de chaque type de supports et leur disposition spatiale. 

De preference, lors de I'analyse des composantes structurelles de 
I'image on procede a un test prealable de detection de la presence d'au 
moins une structure dans I'image et, en cas d'absence de structure, on 
passe directement a I'etape de I'analyse des composantes texturales de 
10 I'image. 

Avantageusement, pour proceder a une repartition des zones 
frontieres des structures de I'image en differentes classes, a partir de 
I'image numerisee definie par I'ensemble des pixels y(i,j) oil e I x J, 
avec I et J designant respectivement le nombre de lignes et le nombre de 
15 colonnes de I'image, on calcule I'image gradient vertical g v (i,j) avec (i,j) e 
I x J et I'image gradient horizontal gh avec (i,j) e I x J et on procede au 
partition nement de I'image selon I'orientation locale de son gradient en un 
nombre fini de classes equidistantes, I'image contenant I'orientation du 
gradient etant definie par la formule 



on identifie les classes constituant des regions de support susceptibles de 
contenir des elements de support significatifs, et a partir des regions de 

25 support, on determine les elements de support significatifs et on les 
repertorie selon des criteres predetermines. 

Selon un aspect particulier de I'inventlon, on analyse les formes 
d'une image d'un document selon les etapes suivantes : 
(a) on procede a une muluYesolutipn suivie d'une decimation de I'image, 

30 (b) on definit I'image dans Pespace logarithmique polaire. 

(c) on represente I'image ou la portion de I'image concernee . par sa 
transformee de Fourier H, 

(d) on procede a une caracterisation de la transformee de Fourier H de la 
facon suivante : 



20 




(1) 
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(dl) on projette H dans plusieurs directions pour obtenir un ensemble 
de vecteurs dont la dimension est egale a la dimension du 
mouvement de projection, 
(d2) on calcule les proprietes statistiques de chaque vecteur de 
5 projection, et 

(e) on represente la forme de I'image par un terme t| constitue des 
valeurs des proprietes statistiques de chaque vecteur de projection. 

Selon un aspect particulier de I'invention, lors de I'indexation d'un 
document multimedia comportant des signaux video, on choisit des 
10 termes tj constitues par des images-cles representant des groupes 
d'images homogenes consecutives, et on determine des concepts q par 
regroupement de termes tj. 

Pour determiner des images-cles constituant des termes ti , on 
elabore d'abord un vecteur score VS comprenant un ensemble d'elements 
15 VS(i) materialisant la difference ou la similarity entre le contenu d'une 
image d'indice i et celui d'une image d'indice i-1, et on analyse le vecteur 
score VS afin de determiner les images-cles qui correspondent aux 
maximums des valeurs des elements VS(i) du vecteur score VS. 

De facon plus paruculiere, une image d'indice j est consideree 
20 comme une image-cle si la valeur VS(j) de I'element correspondant du 
vecteur score VS est un maximum et que la valeur VS(j) est situee entre 
deux minimums min G et min D et que le minimum Ml tel que 
Ml = (I VS(j) - min Gl , I VSq) - min D| ) est superieur a un seuil donne. 

On considerera a nouveau I'indexation d'un document multimedia, 
25 comportant des composantes audio, on echantillonne et decompose le 
document en trames, qui sont ensuite regroupees en clips dont chacun est 
caracterise par un terme tj constitue par un vecteur de parametre. 

Une trame peut compreridre par exemple entre environ 512 et 2048 
echantillons du document audio echantillonne. 
30 Avantageusement, les parametres pris en compte pour la definition 

des termes ^ comprennent des informations temporelles correspondant a 
au moins Tun des parametres suivants : I'energie des trames du signal 
audio, recart-type des energies des trames dans les clips, le rapport des 
variations sonores, le rapport de basse energie, le taux d'oscillation autour 
35 d'une valeur predeterminee, le haut taux d'oscillation autour d'une valeur 
predeterminee,, la difference entre le nombre de taux d'oscillation au- 
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dessus et au-dessous du taux d'oscillation moyen des trames de clips, la 
variance du taux d'oscillation, le rapport des trames silencieuses. 

Toutefois, de facon alternative ou complementaires, de facon 
avantageuse, les parametres pris en compte pour la definition des termes 
5 t| comprennent des informations frequentielles correspondant a au moins 
Tun des parametres suivants : le centre de gravite du spectre de 
frequence de la transformee de Fourier courte du signal audio, la largeur 
de bande du signal audio, le rapport entre I'energie dans une bande de 
frequence et I'energie totale dans toute la bande de frequence du signal 
10 audio echantillonne, la valeur moyenne de la variation du spectre de deux 
trames adjacentes dans un clip, la frequence de coupure d'un clip. 

De facon plus particuliere, les parametres pris en compte pour la 
definition des termes tj peuvent comprendre au moins la modulation 
d'energie a 4 Hz. 

15 D'autres caracteristiques et avantages de I'invention ressortiront de 

la description suivantes de modes parOculiers de realisation, donnes a titre 
d'exemples, en reference aux dessins annexes, sur lesquels : 

- la Figure 1 est un schema-bloc montrant le processus de 
production d'un dictionnaire de concepts a partir d'une base de 

20 documents, conformement a I'invention, 

- la Figure 2 montre le principe de construction d'une base de 
concepts a partir de termes, 

- la Figure 3 est un schema-bloc montrant le processus de 
structuration d'un dictionnaire de concepts, conformement a I'invention, 

25 - la Figure 4 montre la structuration d'une base d'empreintes mise 

en ceuvre dans le cadre du precede selon I'invention, 

- la Figure 5 est un organigramme montrant les differentes etapes 
de construction d'une base d'empreintes, 

- la Figure 6 est un organigramme montrant les differentes etapes 
30 d'identification de documents, 

- la Figure 7 est un organigramme montrant la selection d'une 
premiere liste de reponses, 

- la Figure 8 est un organigramme montrant les differentes etapes 
d'une phase d'indexation de documents conformement au procede selon 

35 I'invention, 
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- la Figure 9 est un organigramme montrant les differentes etapes 
d'extraction de termes dans le cas du traitement d'images, 

- la Figure 10 est un schema resumant le processus de 
decomposition d'une image reguliere et homogene, 

5 - les Figures 11 a 13 montrent trols exemples d'images contenant 

differents types d'elements, 

- les Figures 14a a 14f montrent respectivement un exemple 
d'image originale, un exemple d'image apres traitement en prenant en 
compte le module du gradient, et quatre exemples d'images traitees avec 

10 demantelement des zones frontieres de I'image, 

- la Figure 15a represente un premier exemple d'image contenant 
un element directionnel, 

- la Figure 15al est une vue 3D du spectre de I'image de la Figure 

15a, 

15 - la Figure 15b represente un deuxieme exemple d'image contenant 

un element directionnel, 

- la Figure 15bl est une image module de Fourier de I'image de la 
Figure 15b, 

- la Figure 15c represente un troisieme exemple d'image contenant 
20 deux elements directionnels, 

- la Figure 15cl est une image module de Fourier de I'image de la 
Figure 15c, 

- la Figure 16 illustre des directions de projection pour des couples 
d'entiers (a, 0) dans le cadre du calcul de la transformee de Fourier 

25 Discrete d'une Image, 

- la Figure 17 illustre un exemple de mecanisme de projection avec 
I'exemple d'un couple d'entrees (or, p k ) = (2, -1), 

- la Figure 18al represente un exemple d'image contenant des 
composantes periodiques, 

30 - la Figure 18a2 represente I'image module de la transformee de 

Fourier Discrete de I'image de la Figure 18al, 

- la Figure 18bl represente un exemple d'image synthetique 
contenant une composante periodique, 

- la Figure 18b2 represente une vue en 3D de la transformee de 
35 Fourier Discrete de I'image de la Figure 18bl, faisant apparaitre une paire 

de pics symetriques, 
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- la Figure 19 est un organigramme montrant les differentes etapes 
de traitement d'une image avec etablissement d'un vecteur caracteYisant 
la distribution spatiale des proprietes iconiques de Pimage, 

- la Rgure 20 montre un exemple de partition nement d'une image 
5 et de creation d'un vecteur caracteristique de cette image, 

- la Rgure 21 montre une rotation de 90° de I'image partitionnee 
de la Rgure 20 et la creation d'un vecteur caracteristique de cette image, 

-la Rgure 22 montre la decomposition d'un signal sonore en 
trames en clips, 

10 - la Rgure 23a montre la variation de Penergie d'un signal de 

parole, 

- la Rgure 23b montre la variation de Penergie d'un signal de 
musique, 

- la Rgure 24a montre le taux de passage par zero d'un signal de 
15 parole, 

- la Rgure 24b montre le taux de passage par zero d'un signal de 
musique, 

- la Rgure 25a montre le centre de gravity du spectre de frequence 
de la transformee de R)urier courte d'un signal de parole, 

- la Rgure 25b montre le centre de gravite du spectre de frequence 
de la transformee de Fourier courte d'un signal de musique, 

- la Rgure 26a montre la largeur de bande d'un signal de parole, 

- la Rgure 26b montre la largeur de bande d'un signal de musique, 

- la Rgure 27a montre pour trois sous-bandes de frequence 1, 2, 3 
le rapport d'energie dans chaque sous-bande de frequence sur Penergie 
totale de toute la bande de frequence, pour un signal de parole, 

- la Figure 27b montre pour trois sous-bandes de frequence 1, 2, 3 
le rapport d'energie dans chaque sous-bande de frequence sur Penergie 
totale de toute la bande de frequence, pour un signal de musique, 

- la Figure 28a montre le flux spectral d'un signal de parole, 

- la Figure 28b montre le flux spectral d'un signal de musique, 

- la Figure 29 est un graphique illustrant la definition de la 
frequence de coupure d'un clip, et 

- la Figure 30 illustre, pour un signal audio, la modulation de 
Penergie autour de 4 Hz. 
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On decrira d'abord en reference aux Figures 1 a 5 le principe 
general du procede d'indexation de documents multimedias selon 
I'invention, qui conduit a la construction d'une base d'empreintes, chaque 
document indexe etant associe a une empreinte qui lui est propre. 
s A partir d'une base de documents multimedias 1, une premiere 

etape 2 consiste en I'identification et I'extraction, pour chaque document, 
de termes % constitues par des vecteurs caracterisant des proprietes du 
document a indexer. 

A titre d'exemples, on decrira, en reference aux Figures 22 a 30, la 
10 fagon dont il est possible d'identifier et d'extraire des termes tj pour un 
document sonore. 

Un document audio 140 est d'abord decompose en trames 160 qui 
sont regroupees par la suite en clips 150 dont chacun va etre caracterise 
par un terme constftu6 par un vecteur de parametres (Figure 22). Un 
15 document audio 140 sera done caracterise par un ensemble de termes ti 
qui seront stockes dans une base de termes 3 (Figure 1). 

Les documents audio dont on a extrait leur vecteur caracteristique 
peuvent §tre echantillonnes par exemple a 22 050 Hz afin d'eviter I'effet 
de crenelage. Le document est ensuite divise en un ensemble de trames 
20 dont le nombre d'echant'llons par trame est fix6 en fonction du type de 
fichier a analyser. 

Pour un document audio riche en frequences et qui contient 
beaucoup de . variations, comme les films par exemple, les emissions de 
varietes ou encore les emissions sportives, le nombre d'echantillons dans 
25 une trame doit etre faible, de I'ordre de 512 echantillons par exemple. En 
revanche, pour un document audio homogene ne contenant que de la 
parole ou de la musique par exemple, ce nombre doit etre important, par 
exemple de I'ordre de 2 048 echantillons. 

Un clip de document audio peut §tre caracterise par differents 
30 parametres servant a constituer les termes et caracterisant des 
informations temporelles ou frequentielles. 

II est possible d'utiliser tout ou partie des parametres qui seront 
mentionnes ci-dessous pour former des vecteurs de parametres 
constituant les termes identifiant les clips successifs du document audio 
35 echantillonn£. 
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L'energie des trames du signal audio constitue un premier 
parametre representant une information temporelle. 

L'energie du signal audio varie beaucoup pour la parole alors qu'elle 
est plutot stable pour la musique. Elle permet done de discriminer la 
5 parole de la musique mais aussi de detecter les silences. L'energie peut 
etre couplee a un autre parametre temporel tel que le taux d'oscillation 
(TO) autour d'une valeur, qui peut correspondre par exemple au taux de 
passage par zero (TPZ). En effet un TO faible et une energie forte sont 
synonymes d'un son voise tandis qu'un TO eleve induit une zone non 
10 voisee. 

La Figure 25a represente un signal 141 qui illustre la variation de 
l'energie dans le cas d'un signal de parole. 

La Figure 23b represente un signal 142 qui illustre la variation de 
l'energie dans le cas d'un signal de musique. 

15 Soit N le nombre d'echantillons dans une trame, le volume ou 

energie E(n) est defini par : 

mF4/%sm. (2) 

ou S n (i) represente la valeur de I'echantillon i de la trame d'indice n d'un 
signal audio. 

20 

D'autres parametres representatifs d'informations temporelles 
peuvent etre deduits de l'energie, comme par exemple : 

- I'ecart type des energies des trames dans les clips (encore appele 
EEC ou VSTD) qui constitue un etat defini comme la variance des volumes 

25 des trames dans un clip normalise par le maximum du volume des trames 
du clip, 

- le rapport des variations sonores (RVS) qui est constitu^ par la 
difference entre le maximum et le minimum des volumes des trames d'un 
clip divise par le maximum des volumes de ces trames, 

30 - le rapport de basse energie (ou LER) qui est le pourcentage des 

trames dont le volume est inferieur a un seuil (qui est fixe par exemple a 
95% du volume moyen d'un clip). 

D'autres parametres permettent de caracteriser I'aspect temporel 
d'un clip, en particulier le taux d'oscillation autour d'une valeur 
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predeterminee, qui, lorsque cette valeur predeterminee est zero, definit un 
taux de passage par zero (ou TPZ). 

Le TPZ peut aussi §tre defini par le nombre de fois ou I'onde passe 
par zero . 

5 ZOO = kf i \Sign(S R (0||- (Sign(S„ (i - 1))|>4 (3) 

Sn (i) :Valeur de I'echantillon i, de la trame n. 
N : nombre d'echantillons dans une trame. 
f s : frequence d'echantillonnage. 

Cette caracteYistique est frequemment utilisee pour ia classification parole 
10 / musique. En effet, les brusques variations du TPZ sont significatives de 
I'alternance voisee / non voisee done de la presence de parole. Pour la 
parole, le TPZ est faible pour les zones voisees et tres 6lev6 pour les zones 
non voisees alors que pour la musique, les variations du TPZ sont tres 
faibles. 

15 La Figure 24a montre une courbe 143 illustrant un exemple de TPZ 

pour un signal de parole. 

La Figure 24b montre une courbe 144 illustrant un exemple de TPZ 
pour un signal de musique. 

Un autre parametre caracterisant I'aspect temporel d'un clip peut 
20 §tre constitue par le haut taux d'oscillation autour d'une valeur 
predeterminee qui, lorsque cette valeur predeterminee est zero, definit un 
haut taux de passage par zero (ou HTPZ). 

Le HTPZ peut etre defini comme etent le rapport du nombre de 
trames dont le TPZ est a une valeur a, par exemple 1,5 au-dessus du TPZ 
25 moyen du clip (Is) : 

HTPZ = S [sgn(7PZ(«) - 1 .SavTPZ) + 1] (4) 
tel que : avTPZ ^—^TPZin) . (5) 



avec: 
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n : indice de la trame . 

N : nombre de trames dans un clip. 

Pour les segments de parole les clips sont de 0 a 200 s avec un HTPZ 
autour de 0,15. 

5 En revanche, pour les segments de musique, les clips sont de 200 a 350 s 
et le HTPZ varie autour de 0,05 et est en general quasi nul. 

Pour le son d'environnement les segments correspondant aux clips sont de 
351 a 450 s, 

Le HTPZ est faible pour le bruit blanc et grand pour un son 
10 assourdissant (tambour par exemple). 

On peut encore definir le parametre DTPZ qui est constitue par la 
difference entre le nombre de TPZ au-dessus et en-dessous du TPZ moyen 
des trames d'un clip, ainsi que le parametre VTPZ qui est constitue par la 
variance du TPZ. 

15 Un autre parametre caracterisant I'aspect temporel d'un clip est le 

rapport des trames silencieuses (RFS) qui est le pourcentage des trames 
non silencieuses dans un clip. 

Une trame est non silencieuse si son volume depasse un certain 
seuil (10) et si la valeur du TPZ est inferieure a un Tpz seuil. 

Ainsi le rapport de trames non silencieuses dans un clip, permet de 
detecter le silence. 

D'autres. proprietes statistiques du TPZ peuvent etre utilisees 
comme parametres caracteristiques, telles que : 

i) moment du troisieme ordre de la moyenne, 

ii) le nombre de TPZ depassant un certain seuil. 

Les parametres pris en compte pour la definition des termes tj 
peuvent comprendre egalement des informations frequentielles qui 
prennent en compte le calcul de la transformee de Fourier rapide (FFT) du 
signal audio. 

Ainsi, un parametre appele centroVde spectacle (CS) peut etre defini 
comme etant le centre de gravite du spectre de frequence de la 
transformee de Fourier courte (STFT) du signal audio : 
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CS(») = 




(6) 



telle que S„(i) : Puissance spectrale de la trame i du clip n . 

Le parametre CS est 6leve pour la musique car les hauteurs sont 
reparties sur une zone plus etendue que celle de la parole (en general 6 
5 octaves pour la musique et 3 pour la parole ). II a une relation avec la 
sensation de la brillance du son qu'on entend. C'est un attribut perceptuel 
important pour la caracterisation du timbre . 

La Figure 25a montre une courbe 145 illustrant un exemple de CS 
pour un signal de parole. 
10 La Figure 25b montre une courbe 146 illustrant un exemple de CS 

pour un signal de musique. 

Un autre parametre est constitue par la largeur de bande LB qui 
peut etre calculee a partir de la variance du parametre precedent CS(n). 



La largeur de bande LB est importante tant en musique qu'en 

parole. 

La Figure 26a montre une courbe 147 illustrant un exemple de 
20 largeur de bande d'un signal de parole. 

La Figure 26b montre une courbe 148 illustrant un exemple de 
largeur de bande d'un signal de musique. 

Un autre parametre utile est constitue par le rapport ERSB entre 
Penergie dans une sous-bande de frequence i et Penergie totale dans 
25 toute la bande de frequence du signal audio echantillonne. 

En considerant les proprietes perceptuelles de I'oreille humaine, la 
bande de frequence a ete divisee en quatre sous-bandes ou ces dernieres 
correspondent aux filtres de Cochlear. Quand la frequence d'echan- 
tillonnage est de 22025 Hz, les bandes de frequences sont : 0-630Hz , 



LB 2 (n) 



Z(i-CS(n)) 2 s n (i) 

i=0 



(7) 



i=0 
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630-1720Hz, 1720-4400Hz et 4400-1 1025Hz .Pour chacune de ces 
bandes on calcule son energie ERSBi, qui correspond au rapport de 
I'energie de cette derniere sur I'energie dans toute la bande de frequence . 

La Figure 27a montre trois courbes 151, 152, 153 illustrant pour 
5 trois sous-bandes de frequence 1, 2, 3 le rapport d'energie dans chaque 
sous-bande de frequence sur I'energie totale de toute la bande de 
frequence, pour un exemple de signal de parole. 

La Figure 27b montre trois courbes 154, 155, 156 illustrant pour 
trois sous-bandes de frequence 1, 2, 3 le rapport d'energie dans chaque 
10 sous-bande de frequence sur I'energie totale de toute la bande de 
frequence, pour un exemple de signal de musique. 

Un autre parametre est constitue par le flux spectral qui est defini 
comme la valeur moyenne de la variation du spectre de deux trames 
adjacentes dans un clip : 

1 5 FS(n) = ^-f i [logOS, (0 + 0) - logOS,, (i -V) + S)f (8) 

OU 

8 : Une constante de faible valeur, 

S„(i) : Puissance spectrale de la trame i du clip n. 

Le flux spectral de la parole est en general plus important que celui 
20 de la musique, et celui du son d'environnement est le plus grand. II varie 
considerablement en comparaison avec les deux autres signaux. 

La Figure 28a montre une courbe 157 illustrant le flux spectral d'un 
exemple de signal de parole. 

La Figure 28b montre une courbe 158 illustrant le flux spectral d'un 
25 exemple de signal de musique. 

Un autre parametre utile est constitue par la frequence de coupure 
d'un clip (FCC). 

La Figure 29 montre une courbe 149 illustrant le spectre 
d'amplitude en fonction de la frequence fe, et la frequence de coupure fc 
30 qui est la frequence en dessous de laquelle 95% de I'energie du spectre 
(la puissance spectrale) est concentree. 

Pour determiner la frequence de coupure du clip, on calcule la 
transformee de Fourier du clip DS(n) 
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DS(n) = J] S„ 2 (0 (9) . La frequence ft est determinee par : 
f^Sl(i)Z0.95xDS (10)et ^S 2 n (i)<0.95xDS) (11) 

i=0 1=0 

La FCC est plus elevee pour un son non voise (son riche en hautes 
5 frequences ) que pour un son vois6 (presence de parole ou la puissance 
est concentree dans les basses frequences). 

Cette mesure permet de caracteriser les alternances voisees/non 
voisees de la parole car cette valeur est faible pour les clips contenant 
uniquement de la musique. 
10 D'autres parametres peuvent encore etre pris en compte pour la 

definition des termes ti d'un document audio, comme la modulation 
d'energie autour de 4 Hz, qui constitue un parametre issu a la fois d'une 
analyse fr^quentielle et d'une analyse temporelle. 

La modulation d'energie a 4 Hz (4 ME) est calculee a partir du 
15 contour du volume, selon la formule suivante : 



NIT T 



4ME = ±±J^ _ (12) 



/=0 



20 ou S„(i) : Puissance spectrale de la trame i du dip n . 

W(j) : Fenetre triangulaire centree a 4Hz. 
T : Largeur d'un clip. 

La parole a une 4ME plus importante que la musique car, pour la 
parole, les changements de syllabe se situent autour de 4Hz. 

25 Une syllabe est en effet une combinaison d'une zone de faible 

energie (consonne) et d'une zone de forte energie (voyelle). 
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La Figure 30 montre une courbe 161 illustrant un exemple de signal 
audio et une courbe 162 montrant pour ce signal la modulation de 
I'energie autour de 4 Hz. 

On a decrit ci-avant le cas de documents multimedias comportant 
5 des composantes audio. 

Dans le cas de I'indexation de documents multimedias comportant 
des signaux video, on peut choisir des termes tj constitues par des 
images-cles representant des groupes d'images homogenes consecutives. 

Les termes tj peuvent a leur tour representer par exemple les 
10 couleurs dominantes, les proprietes texturales, les structures de zones 
dominantes des images-cles du document video. 

D'une maniere generate, dans le cas des images qui sera developpe 
plus en detail plus loin, les termes peuvent representer les couleurs 
dominantes, les proprietes texturales, les structures des zones dominantes 
15 de I'image. Plusieurs precedes peuvent §tre mis en ceuvre de fagon 
alternative ou cumulative, aussi bien sur la totalite de I'image que sur des 
portions de I'image, pour determiner les termes t devant caracteriser 
I'image. 

Dans le cas d'un document contenant du texte, les termes tj 
20 peuvent etre constitues par des mots du langage parte ou ecrit, par des 
nombres et par d'autres identificateurs constitues de combinaisons de 
caracteres (par exemple des combinaisons de lettres et de chiffres). 

On considerera a nouveau I'indexation d'un document 
multimedia comportant des signaux video, pour lequel on choisit des 
25 termes tj constitues par des images-cles representant des groupes 
d'images homogenes consecutives, et on determine des concepts q par 
regroupement des termes tj. 

La detection des images des repose sur le regroupement des 
images d'un document video en groupes contenant chacun uniquement 
30 des images homogenes. De chacun des groupes on extrait une ou 
plusieurs images (appelees images des) representant le document video. 

Le regroupement des images du document video repose sur la 
production d'un vecteur score appele VS representant le contenu de la 
video, il caracterise la variation des images consecutives de la video 
35 (I'element VSj materialise la difference entre le contenu de I'image d'indice 
i et celui de I'image d'indice i-1), VS est egal a zero quand les contenus imi 
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et irrij-i sont identiques et il est important quand la difference entre les 
deux contenus est importante. 

Pour calcuier le signal VS, les trois bandes de chaque image imi 
RGB d'indice i de video sont additionnees pour ne constituer qu'une seule 
5 image qu'appelee TRi. Ensuite, I'image TRi est decomposee en plusieurs 
bandes de frequence pour ne conserver que la composante basse 
frequence TRBi. On utilise pour cela deux filtres a miroir (un filtre Passe 
bas PB et un filtre Passe Haut PH) qui sont appliques successivement sur 
les lignes et sur les colonnes de I'image. On considerera deux types de 
10 filtre : I'ondelette de Haar et le filtre dont I'algorithme est le suivant : 

Balayage ligne 

A partir de TRk on produit I'image Bas 
Pour chaque point a^j de I'image TR faire 
15 Calcuier le point by de I'image basse frequence bas, by prend la valeur 
mediane de a2xi,M/ a2xi,j et Sbuj+i. 

Balayage Colonne 

A partir des deux images Bas on produit I'image TRBk 
20 Pour chaque point b^ de I'image TR faire 

Calcuier le point bby de I'image basse frequence bas, bby prend la valeur 

mediane de b if 2xj-i/b if 2xj et bj,2xf+i 

Les baiayages ligne et colonne sont appliques autant de fois 

qu'on le souhaite. Le nombre d'iterations depend de la resolution des 
25 images de la video. Pour des images de taille 512x512 ou peut fixer n a 

trois. 

L'image resultat TRBi est projetee dans plusieurs directions pour 
obtenir un ensemble de vecteurs Vk, k est Tangle de projection 
(('element j de VO, vecteur obtenu suite a la projection horizontal de 

30 I'image, est egal a la somme de tous les points de la ligne j de I'image). 
Les vecteurs de directions de I'image TRBi sont compares aux vecteurs de 
direction de TRBi-1 pour obtenir un score i qui mesure la similarity entre 
ces deux images. Ce score est obtenu par la moyenne de toutes les 
distances des vecteurs de meme direction : pour chaque k on calcule la 

35 distance entre le vecteur Vk de I'image i et le vecteur Vk de I'image i-1 
puis on calcule toutes ces distances. 
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L'ensemble de tous les scores constitue le vecteur score VS : 
['element i de VS mesure la similarity entre I'image TRBi et Timage TRBi-1. 
Le vecteur VS est lisse afin d'eliminer les irregularites du au bruit 
engendre lors la manipulation de la video. 
5 On decrira ci-apres un exemple de regroupement des images et 

d'extraction des images cles. 

Le vecteur VS est analyse afin de determiner les images cles qui 
correspondent aux maximums des valeurs de VS. Une image d'indice j est 
consideree comme une image-cle si la valeur VS(j) est un maximum et si 
10 VS(j) est situe entre deux minimums minG (minimum gauche) et minD 
(minimum droite) et si le minimum Ml tel que 

Ml = min ( I VS(Cj)-minG | , | VS(j)-min D | ) est superieur a un seuil donne. 

Pour detecter les images-cles, on initialise minG avec VS(0) puis 
on parcourt le vecteur VS de la gauche vers la droite. A chaque etape, on 

15 determine Tindice j correspondant a la valeur maximale situee entre deux 
minimums (minG et minD) puis en fonction du resultat de I'equation 
definissant Ml on decide de considerer j comme un indice d'une image-cle 
ou non. II est possible de prendre un groupe de plusieurs images-cles 
voisines, par exemple des images-cles d'indices j-1, j et j+1. 

20 Trois cas se presentent si le minimum des deux pentes, definies 

par les deux minimums (minG et minD) et la valeur maximale, n'est pas 
superieur au seuil : 

i) Si IVSQ) - minGI est inferieur au seuil et que minG ne 
correspond pas a VS(o), le maximum VS(j) est ignore et minD devient 

25 minG, 

ii) Si |VS(j) - minGI est superieur au seuil et si |vS(j)-minD| est 
inferieure au seuil, le minD et le maximum VS(j) sont conserves et minD 
est ignore sauf si le plus proche maximum a droite de min D est superieur 
a un seuil. Dans ce cas, on conserve aussi minD et on declare j comme un 

30 indice d'une image-cle. Dans le cas ou minD est ignore, minD prendra la 
valeur la plus proche du minimum situe a droite de minD. 

iii) Si les deux pentes sont inferieures au seuil, minG est 
conserve et minD et j sont ignores. 

Apres selection d'une image-cle, on itere le processus. A chaque 
35 iteration minD devient minG. 
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Si Ton se reporte a nouveau a la Figure 1; a partir d'une base de 
termes 3 comprenant P termes, on procede dans une etape 4 a un 
traitement des termes tj et a leur regroupement en concepts q (Rgure 2) 
destines a etre stockes dans un dictionnaire de concepts 5. II s'agit ici 
5 d'elaborer un ensemble de signatures caracteYisant une classe de 
documents. Les signatures sont des descripteurs qui, par exemple dans le 
cas de I'image, represented la couleur, la forme et la texture. Un 
document peut alors etre caracterise et represents par les concepts du 
dictionnaire. 

10 Une empreinte d'un document peut alors §tre formee par les 

vecteurs signatures de chaque concept du dictionnaire 5. Le vecteur 
signature est constitu£ par les documents ou le concept q est present 
ainsi que par les positions et le poids de ce concept dans le document. 

Les termes t| extraits d'une base de documents 1 sont stockes dans 

15 une base de termes 3 et traites dans un module 4 d'extraction de 
concepts q qui sont eux-memes regroupes dans un dictionnaire de 
concepts 5. La Figure 2 illustre le processus de construction d'une base de 
concepts q (1< i < m) a partir de termes tj (l£ j ^ n) presentant des 
scores de similarity wij. 

20 Le module de la production du dictionnaire de concepts recoit en 

entree I'ensemble P des termes de la base 3 et le nombre maximum N de 
concepts souhaite est fixe par I'utilisateur. Chaque concept q est prevu 
pour regrouper tous les termes voisins du point de vue de leurs 
caracteristiques. 

25 Pour produire le dictionnaire de concepts, on commence par 

calculer la matrice de distance Tentre les termes de la base 3, cette 

matrice est utilisee pour creer une partition dont le cardinal est egal au 

nombre N de concepts souhaite. 

La creation du dictionnaire de concepts s'effectue en deux phases : 
30 Decomposition de Pen N parties P= Pi U Pi ... U FU 

Processus d'optimisation de la partition qui decompose Pen M classes 

P= Ci U Ci ... U C M avec M est inferieur ou egal a P. 

Le processus d'optimisation a pour but de reduire I'erreur de la 

repartition de P en N parties {Pi, Pi, P/v} ou chaque partie P, est 
35 representee par le terme #qui sera pris comme concept, I'erreur commise 

est alors egale a I'expression suivante : 
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e = £ e H , e tt = ^d 2 [t,,tj ) est I'erreur commise lorsqu'bn 

remplace les termes tj de P f par & 

On peut decomposer P en N parties de maniere a repartir les 
5 termes de telle facon que les termes les plus 6loignes se trouvent dans 
des parties distinctes et les termes proches se trouvent dans la meme 
partie. 

On decrira d'abord I'etape 1 de decomposition de Pensemble de 
termes P en deux parties Pi et P 2 : 
10 (a) On determine les deux termes les plus eloignes t/ et tj de P 
correspondant a la plus grande distance Dg de la matrice 77 
(b) Pour chaque & de P, tk est affecte a Pi si la distance Dm est plus petite 
que la distance Dq et a P2 sinon. 

On itere I'etape 1 jusqu'a I'obtention du nombre de parties souhaite 
15 et a chaque iteration on applique les etapes (a) et (b) sur les termes de 
I'ensemble PI et de I'ensemble P2. 

On decrira maintenant une phase d'optimisation. 
Le processus d'optimisation a pour point de depart les N parties 
disjointes de P {Pi, P2, Pn} ainsi que les N termes {ti, t 2/ t N } qui 
20 les represented et il est utilise afin de reduire I'erreur de decomposition 
de P en {Pi, P2, Pn} parties. 

On commence par calculer les centres de gravites Ci des Pi. Ensuite 
on calcule I'erreur ec, = ^^(t^tj) qu'on compare a ec, et on remplace ti 

tjBP, 

par Ci si ec t est inferieur a &, . Puis, apres avoir calculi la nouvelle matrice 
25 T et si la convergence n'est pas atteinte , on procede a une 
decomposition. La condition d'arr§t est definie par — ~ ec,+ ^ <seuil qui 

est de I'ordre de 10" 3, ec t etant I'erreur commise a llnstant t qui 

represente llteration. 

On presente ci-dessous une matrice T de distances entre les 
30 termes, ou Dg designe la distance entre le terme tj et le terme tj. 





to 




ti 




t k 




ti 




tn 


to 


Doo 




Doi 




D 0 k 




D 01 




Don 
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La Rgure 3 illustre, dans le cas de documents multimedias de 
contenus divers, un exemple de structuration du dictionnaire de concept 
5 5. 

Afin de faciliter la navigation a I'interieur du dictionnaire 5 et de 
determiner rapidement lors d'une phase d'identification le concept le plus 
proche d'un terme donne, le dictionnaire 5 est analyse et une carte de 
navigation 9 a I'interieur du dictionnaire est etablie. 

10 La production de la carte de navigation 9 s'effectue de facon 

iterative. A chaque iteration, on commence par scinder l'ensemble de 
concepts en deux sous-ensembles, puis a chaque iteration on selectionne 
un sous-ensemble jusqu'a I'obtention du nombre de groupes souhaite ou 
bien jusqu'a ce que le critere d'arnSt soit satisfait. Ce critere d'arnlt peut 

15 §tre par exemple que les sous-ensembles obtenus sont tous homogenes 
avec un ecart-type faible par exemple. Le resultat final est un arbre 
binaire ou les feuilles contiennent les concepts du dictionnaire et les 
nceuds de I'arbre contiennent les informations necessaires a la scrutation 
de I'arbre lors de la phase d'identification d'un document. 

20 On decrira ci-dessous un exemple de module 6 de repartition d'un 

ensemble de concepts. 

L'ensemble de concepts C est represente sous la forme d'une 
matrice M = [c 1 ,c 2 ,...,c^]e9l p,Ar , avec c f e9* p , ou c, represente un 

concept de p valeurs. Differentes methodes sont possibles pour assurer 
25 une repartition axiale. Dans ce cas, on commence par calculer le centre de 
gravite C ainsi que Taxe utilise pour decomposer l'ensemble en deux sous- 
ensembles. 

Les etapes de traitement sont les suivantes : 
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Etape 1 : on calcule un representant de la matrice M tel que le centroTde 
w de la matrice M : w = ^ J) c, (13) 

5 Etape 2 : on calcule la matrice de covariance M entre les elements de la 
matrice M et le representant de la matrice M avec, dans le cas particulier 
ci-dessus M = M - we , ou e = [l,l,l,...,l] (14) 

Etape 3 : on calcule un axe de projection des elements de la matrice M, 
10 par exemple le vecteur propre U associe a la plus grande valeur propre de 
la matrice de covariance. 

Etape 4: on calcule la valeur pi = u T (c,-w) et on decompose I'ensemble 
de concepts C en deux sous-ensembles CI et C2 de la maniere suivante : 

15 

Jc, e CI si pi < 0 

\c l eC2sipi>0 ^ 



Les informations stockees dans le nceud associe a C sont {u, w, |pl|, p2} 
20 avec pi est le maximum de tous les pi <, o et p2 est le minimum de tous 
les pi>0. 

L'ensemble {u, w, |pl|, p2} constitue les indicateurs de navigation dans 
le dictionnaire de concept. En effet pour determiner, lors de la phase 
dldentification par exemple, le concept le plus proche d'un terme ti, on 
25 calcule la valeur pti = u T {t,-w) puis on selectionne le nceud associe a CI 

si |pti|-|pl|<|pa|- J p2| et on selectionne le nceud C2 si non. On itere le 
processus jusqu'a ce que Ton ait atteint une des feuilles de Karbre. 

Un module detecteur de singularite 8 peut etre associe au module 6 
de repartition des concepts. 
30 Ce detecteur de singularite permet de selectionner l'ensemble Ci a 

decomposer. Une des methodes possibles consiste a selectionner 
l'ensemble le moins compact. 
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Les Figures 4 et 5 illustrent I'indexation d'un document ou d'une 
base de documents et la construction d'une base d'empreintes 10. 

La base d'empreintes 10 est constitute de I'ensemble des concepts 
representant les termes des documents a proteger. A chaque concept Ci 
5 de la base d'empreintes 10 est associee une empreinte 11, 12, 13 
constituee par un ensemble d'informations telles que le nombre de termes 
dans les documents ou le concept est present, et pour chacun de ces 
documents on enregistre une empreinte 11a, lib, 11c comprenant I'indice 
du document qui renvoie a I'adresse du document, le nombre de termes, 
10 le nombre d'occurrences du concept (frequence), le score, ainsi que les 
concepts qui lui sont voisins dans le document. Le score est une valeur 
moyenne des mesures de similarity entre le concept et les termes du 
document qui sont les plus proches du concept. L'indice d'un document 
donnt qui renvoie a I'adresse de ce document est stocke dans une base 
15 14 des adresses des documents proteges. 

Le processus 20 de generation des empreintes ou signatures de 
documents a indexer est illustre sur la Figure 5. 

Lors de I'enregistrement d'un document, on extrait les termes 
pertinents du document (etape 21) et on prend en compte le dictionnaire 
20 des concepts (etape 22). Chacun des termes tj du document est projete 
dans I'espace du dictionnaire de concepts afin de determiner le concept q 
representant le terme ti (etape 23). 

On met ensuite a jour I'empreinte du concept q (etape 24). Cette 
mise a jour s'effectue selon que le concept a d£ja et£ rencontre, c'est-a- 
25 dire est present dans les documents qui sont deja enregistres ou non. 

Si le concept q n'est pas encore present dans la base, on cree une 
nouvelle entree dans la base (une entree dans la base correspond a un 
objet dont les elements sont des objets contenant la signature du concept 
dans les documents ou ce concept est present). On initialise I'entree creee 
30 avec la signature du concept. La signature d'un concept dans un 
document est materialisee principalement par les informations suivantes : 
Adresse du document, NbTermes, Frequence, Concepts Voisins et score. 

Si le concept q existe dans la base, on ajoute a I'entree associee au 
concept sa signature dans le document qui est composee de (Adresse du 
35 document, NbTermes, Frequence, Concepts Voisins et score). 
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Lorsque la base d'empreintes est construite (etape 25), on procede 
a I'enregistrement de la base d'empreintes (etape 26). 

La Figure 6 illustre un processus ^identification d'un document qui 
est implements sur une plate-forme 30 de recherche en ligne. 

5 ^identification d'un document a pour objectif de determiner si un 

document pose comme question est la ^utilisation d'un document de la 
base. Elle est basee sur la mesure de similarite entre documents. Le but 
est d'identifier les documents contenant des elements proteges. La reprise 
peut etre totale ou partielle. Dans ce dernier cas, Pelement copie a subi 

0 des modifications telles que : suppression de phrases dans un texte, 
suppression de motif dans une image, suppression de plan ou de 
sequence dans un document video,... changement d'ordre des termes ou 
substitution de termes par d'autres termes dans un texte. 

Apres presentation d'un document a identifier (etape 31), on 

5 procede a I'extraction des termes de ce document (etape 32). 

En liaison avec une base d'empreintes (etape 25), on met en 
correspondance les concepts calories a partir des termes extraits de la 
question, avec les concepts de base (etape 33), afin d'etablir une liste de 
documents ayant des contenus similaires aux contenus du document 

0 question. 

Le processus d'etablissement de la liste est le suivant : 
On note pdj : le degre de ressemblance du document dj a.u 
document question, avec i<j^N , N est le nombre de documents de la 

base de reference 
5 On initialise a zero tous les p d j 

Pour chaque terme ti de la question fourni a I'etape 331 (Figure 7) 
on determine le concept Ci qui le represente (etape 332). 

Pour chaque document dj ou le concept est present on met a jour 

son pdj de la maniere suivante : 
3 pdj =pdj + ^frequence, score), plusieurs fonctions f peuvent §tre utilisees 
par exemple f(frequence, score) = Sequence x score, frequence designe le 
nombre d'occurrences du concept Ci dans le document dj et score designe 
la moyenne des scores de ressemblance des termes du document dj avec 
le concept Cj. 
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On ordonne les Pdj et on conserve ceux qui sont superieurs a un 
seuil donne (etape 333). On procede ensuite a une confirmation et une 
validation des reponses (etape 34). 

Confirmation des reponses : la liste des reponses est filtree afin de 
5 n'en garder que les reponses les plus pertinentes. Le filtrage utilise est 
base sur la correlation entre les termes de la question et de chacune des 
reponses. 

Validation: elle permet de ne conserver que les reponses ou il y a 
une grande certitude de reprise de contenu. Dans cette etape les reponses 

10 sont filtrees en tenant compte des proprietes algebriques et topologiques 
des concepts a llnterieur d'un document : on exige que le voisinage dans 
le document question soit respecte dans les documents reponses, dest a 
dire que deux concepts voisins dans le document question doivent §tre 
voisins dans le document reponse. 

15 On fournit alors la liste des documents reponses (etape 35). 

On considerera maintenant plus particulierement le cas de 
documents multimedias contenant des images. 

On decrira en particulier pour la construction de la base 
d'empreintes qui servira d'outil pour I'identification d'un document, des 

20 precedes rapides et efficaces d'identification d'images qui tiennent compte 
de toutes les informations pertinentes contenues dans les images allant de 
la caracterisation des structures ou objets qui la composent, a celle des 
zones texturees et a la couleur de fond. Les objets de I'image sont 
identifies par la production d'une table resumant differentes statistiques 

25 faites sur des informations des zones frontieres des objets ainsi que des 
informations sur les voisinages de ces zones frontieres. La caracterisation 
des zones texturees peut §tre effectuee a I'aide d'une description tres fine 
a la fois spatiale et spectrale de la texture suivant trois caracteristiques 
fondamentales qui sont sa periodicite, son orientation globale et Paspect 

30 aleatoire de son motif. La texture est ici assimilee a une realisation de 
processus aleatoire bidimensionnel. La caracterisation de la couleur est un 
volet important de la methode. Elle peut etre utilisee comme un premier 
tri des reponses similaires basees sur la couleur, ou alors une derniere 
decision faite pour affiner la recherche. 
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Dans le premier volet de la phase de construction d'empreintes, on 
prend en compte des informations classifies sous forme de composants 
appartenant a deux grandes categories : 

- les composants dits structured qui decrivent la perception par 
5 I'ceil d'un objet pouvant etre dole ou d'un ensemble d'objets dispose selon 

un arrangement spatial (images 81 et 82 des Figures 11 et 12), 

- les composants dits texturaux qui sont le complement des 
composants structured et qui traduisent la regularite ou Phomogenefte des 
motifs de texture (images 82 et 83 des Figures 12 et 13). 

10 La Figure 11 montre ainsi une image 81 contenant des elements 

structured et ne presentant pas de motifs de texture. 

La Figure 12 montre une image 81 contenant des elements 
structured et un fond texture. 

La Figure 13 montre une image 83 sans elements structured mais 
15 entierement texturee. 

Comme indiqu6 plus haut, lors de la phase de construction 
d'empreintes, chaque document de la base de documents est analyse afin 
d'en extraire les informations pertinentes. Ces informations seront ensuite 
repertoriees et analysees. Cette analyse se fait suivant un enchainement 
20 de procedures qui se resume en trod etapes : 

- Extraction pour chaque document de caracteristiques pred^finies 
et stockage de ces informations dans un vecteur appele terme. 

- Regroupement dans un concept de tous les termes "voisins" du 
point de vue de leurs caracteristiques, ce qui permet de rendre la 

25 recherche plus concise. 

- Construction d'une empreinte qui caracterise ce document par un 
nombre reduit d'entites. Chaque document est ainsi associe a une 
empreinte qui lui est propre. 

La Figure 8 illustre le cas de I'indexation d'un document 
30 image 52 contenu dans une base d'images 51 prealablement enregistree, 
pour caracteriser cette image 52 par un nombre fini de parametres 
pouvant §tre facilement stockes et manipules ulterieurement. On procede 
a I'etape 53 a 1'extraction de termes du document a chercher qui sont 
stockes dans une memoire tampon (etape 54). 
35 On opere a I'etape 55 une projection dans I'espace des termes de la 

base de references. 
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A l'etape 56, on procede a une description vectorielle donnant les 
valeurs de pertinence des termes dans le document a chercher. 

L'etape 57 consiste en une. repartition des termes dans N groupes 
58 de concepts. 

5 L'etape 59 consiste en une projection dans Pespace des concepts de 

chaque groupe 58 pour obtenir N partitions 61. 

Enfin, une projection orthogonale 62 conduit a N ensembles 63 de 
descriptions vectorielles reduites. 

Lors d'une phase ulterieure de recherche, suite a une requete 
0 formulee par un utilisateur, par exemple ('identification d'une image 
question, on recherche tous les documents multimedias similaires ou 
repondant a cette requete. Pour ce faire, comme indique plus haut, on 
calcule les termes du document question et on les compare aux concepts 
de la base afin de deduire le ou les documents de la base qui sont 
5 similaires au document question. 

On decrira ci-dessous de facon plus detaillee la phase de 
construction des termes d'une image. 

La phase de construction des termes d'une image met en ceuvre 
utilement la caracterisation des supports structured de I'image. Les 
0 supports structured sont les elements qui composent la scene de I'image. 
Les plus significatifs sont ceux qui delimitent les objets de la scene car ce 
sont eux qui caracteYisent les differentes formes qui sont percues 
lorsqu'on observe une quelconque image. 

Cette etape concerne I'extraction de ces supports structured. Elle 
5 consiste en un demantelement des zones frontieres des objets de I'image, 
qui sont caracterisees par des endroits entre deux zones ou de fortes 
variations d'intensite sont observees. Ce demantelement s'opere par un 
procede qui consiste a repartir ces zones frontieres parmi differentes 
« classes* selon I'orientation locale du gradient de I'image (orientation de 
0 la variation locale d'intensite). On obtient ainsi une multitude de petits 
elements denommes les « Elements de Support structurels» (£35). 
Chaque £55* appartenant effectivement a un contour d'une scene est 
caracterise par une similarity au niveau de I'orientation locale de son 
gradient. Ceci est une premiere etape qui vise a repertorier tous les 
5 elements de Support structure/s 6e\'\mage. 
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La demarche suivante s'opere desormais a partir de ces ESS, a 
savoir la construction de termes decrlvant les proprietes locales et 
globales des ESS. 

Sont considerees comme proprietes locales les informations 
5 extraites de chaque support. Deux types de supports peuvent etre 
distingues: les elements de droites rectilignes (EDR) et les Elements 
d'arcs de courbes (EAC). 

Les elements de droites rectilignes EDR sont caracterises par les 
proprietes locales qui sont .: 

10 "La dimension (longueur, largeur) 

■ Direction principale (pente) 

■ Proprietes statistiques des pixels constituant le support 
(valeur moyenne d'energie, les moments) 

■ Informations du voisinage ( Transformee de Fourier 
15 locale) 

Les elements d'arcs de courbes EAC quant a eux sont caracterises 
de la m§me fagon que precedemment, en plus de la courbure des arcs. 

Les proprietes globales englobent les statistiques telles que le 
nombre de chaque type de supports et leurs dispositions spatiales 
20 (associations geometriques entre les supports : connexites, gauche, droite, 
milieux...). 

En resum^ pour une image donnee, les informations pertinentes 
extraites des objets la constituant sont regroupees sur le tableau 1. 
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Supports structuraux des 
objets d'une image 


Type 


ESS 


EDR 


EAC 


Proprietes 
globales 


Nb total 


n 


nj 


n 2 


Nb longs (> seuil) 


nl 


nil 




Nb courts (< seuil) 


■ nc 


njc 


n2C 


Nb de supports 
longs a une 
connexion gauche 
ou droite 




njlgdx 


n2lgdx 


•Kit 1 » 

Nb d une 
connexion milieu . 




nil&dx 


nol&dx 


Nb de supports 
longs paralleles 




mpll 


nzpll 


Proprietes 
locales 


(>seuil) 


— 






Luminance 
(<seuil) 








Pente 








Courbure 








Caracterisation du 
voisinage des 
supports 









Tableau 1 



La phase de construction des termes d'une image met en ceuvre 
egalement la caracterisation des informations texturales pertinentes de 
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I'image. Les informations venant de la texture de I'image sont divisees 
selon trois aspects visuels de llmage : 

■ I'aspect aleatoire (comme une image de sable fin, ou dTierbe) 
ou aucun arrangement particulier ne peut etre decele, 

5 ■ I'aspect periodique (comme un pull en jacquard) ou une 

repetition de motifs (pixel ou groupement de pixels) dominants 
est observee, 

■ et enfin I'aspect directionnel ou les motifs tendent globalement 
a s'orienter vers une ou des directions privilegiees. 

10 Ces informations sont obtenues en approchant I'image par des 

modeles ou representations parametriques. Chaque aspect est pris en 
compte par ses representations spatiale et spectrale qui constituent les 
informations pertlnentes de cette partie de I'image. La periodicity et 
I'orientation sont caracterisees par les supports spectraux tandis que 

15 I'aspect aleatoire se traduit par I'estimation des parametres d'un modele 
autoregressif bidimensionnel. 

Une fois toutes les informations pertinentes extraites, on peut 
proceder a la structuratlon des termes des textures. 
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Supports spectraux et 
parametres autoregressifs de la 
texture d'une image 




Comnosante 
periodique 


Nb total 
d 9 elements 
periodiques 


np 




Frequences 


y^oupie \Qj p , v p j, u < p s np 




Amplitudes 


CoM/7/e \C p> D p \ 0<p<,np 


Composante 
directionnelle 


Nb total 
d f elements 
directionnels 


nd 




Orientations 


Couple {a,,fi,\ 0<i£nd 




Frequences 


v„ 0<i£nd 


Composantes 
aleatoires 


Ecart-type du bruit 


a 




Parametres 
autoregressifs 





Tableau 2 



La phase de construction des termes d'une image peut enfin mettre 
egalement en ceuvre la caracterisation de la couleur de I'lmage. 
5 La couleur est souvent representee par les histogrammes de 

couleur, ces derniers sont invariants a la rotation et robustes contre 
I'occlusion et les changements de points de vue de la camera. 

La quantification des couleurs peut se faire dans I'espace RVB 
(Rouge, Vert, Bleu), TSV (Teinte Saturation Valeur), ou I'espace LUV mais 
10 la methode d'indexation par les histogrammes de couleurs a prouve ses 
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limites car elle donne une information globale de l'image> et lors de 
Indexation on peut trouver des images ayant le m§me histogramme de 
couleur, mais qui sont completement differentes. 

Beaucoup d'auteurs proposent des histogrammes de couleurs en 
5 integrant [Information spatiale. Ceci consiste par exemple a distinguer les 
pixels coherents des pixels incoherents, un pixel est coherent s'il 
appartient a une region assez large regroupant des pixels identiques,il est 
classe incoherent s'il fait partie d'une region de taille reduite. 

On dexrira plus loin un proc^de de caracterisation de la distribution 
10 spatiale des constituants de I'image (par exemple la couleur) qui est moins 
couteux en temps de calcul que les methodes citees d dessus, et est 
robuste aux rotations et a la translation. 

Les differentes caractenstiques extraites des elements de support 
structurels ainsi que les parametres des composants periodique, 
15 directionnel et aleatoire du champ de texture ainsi que les parametres de 
la distribution spatiale des constituants de I'image constituent les termes 
pouvant servir a la description du contenu d'un document. Ces termes 
sont regroupes dans des concepts afin de reduire les informations utiles 
d'un document. 

20 Les occurrences de ces concepts ainsi que leurs positions et leurs 

frequences constituent ce qu'on appelle Yempreinte d'un document. Ces 
empreintes vont ensuite servir de trait d'union entre un document 
question et les documents d'une base, lors d'une phase de recherche de 
document. 

25 Une image ne contient pas forc^ment tous les elements et les 

caracteristiques decrits plus haut. Par consequent, identifier une image 
commence par la detection de la presence de ses elements constituants. 

La Figure 9 montre un exemple d'organigramme d'un processus 
d'extraction des termes d'une image avec une premiere etape 71 de 
30 caracterisation des objets de I'image en supports structurels, qui peut le 
cas echeant §tre precede d'un test de detection d'elements structurels 
permettant d'omettre cette etape 71 dans les cas ou les elements 
structurels sont absents. 

L'etape 72 consiste en un test pour determiner s'il existe un fond 
35 texture. Si c'est le cas, on passe a une etape 73 de caracterisation du fond 
texture en supports spectraux et parametres autoregressifs AR, puis a une 
etape 74 de caracterisation de la couleur de fond. 
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S'il n'existe pas de fond structure, on passe directement de I'etape 
72 a I'etape 74. 

Enfin, une etape 75 reside dans le stockage des termes et la 
construction d'empreintes. 

5 On reviendra maintenant de facon plus detaillee sur la 

caracterisation des elements de support structurels d'une image. 

Le principe de base de cette caracterisation consiste en un 
demantelement des zones frontieres des objets de 1'image en multitudes 
de petits elements de base appeles elements de supports slgnificatifs 
10 (ESS) qui vehiculent les informations utiles des zones frontieres qui sont 
composees de bandes lineaires de taille variable, ou des coudes de 
differentes courbures. Des statistiques faites sur ces objets seront alors 
analysees et utilisees pour construire les termes de ces supports 
structurels. 

15 Afin de decrire plus rigoureusement les principaux precedes 

composant cette approche, on notera une image numensee par 
rensemble{y(z,y),(j,7)e /xj}, ou let jsont respectivement le nombre de 

lignes et de colonnes de 1'image. 

A partir des images gradient vertical {g v (i,j),(i,j)e Ix J}et 

20 horizontal {g h {i,j\{i,j)G I xJ) prealablement calculees, cette approche 
consiste a partitionner 1'image selon I'orientation locale de son gradient en 
un nombre fini de classes ^quidistantes. Llmage contenant I'orientation du 
gradient est definie par la formule : 



0( l -,y) = arctanf^4 > 



(i) 



25 La partition n'est autre qu'une subdivision angulaire du plan 2D (de 

0° a 360°) par un pas de discretisation bien defini. Le fait d'utiliser 
I'orientation locale du gradient comme critere de decomposition des zones 
frontieres permet un meilleur groupement des pixels faisant partie d'une 
meme zone frontiere. Afin de resoudre le probleme des points frontieres 

30 qui peuvent §tre partag^s entre deux classes juxtaposees, une deuxieme 
partition avec le m§me nombre de classes que precedemment, mais 
decalees de V2 classe est utilisee. A partir des classes issues des deux 
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partitions, une simple procedure consiste a choisir celles qui totalisent le 
plus grand nombre de pixels. En effet, chaque pixel appartient a deux 
classes chacune issue des deux partitions. Sachant que chaque pixel est 
un element potentiei d'un eventuel ESS, II vote alors pour la classe qui 
5 contient le plus de pixels parmi les deux. II s'agit d'une region ou la 
probability de trouver un ESS de taille plus elevee est la plus forte 
possible. A la suite des votes, on retient uniquement les classes qui 
totalisent plus de 50% des suffrages. Ce sont les regions de support 
susceptibles de contenir les ESS. 

10 A partir de ces regions de support, on determine les £S5> on les 

repertorie selon certains criteres qui peuvent §tre : 

■ La longueur (on determine pour cela un seuil lo et on 
comptabilise les £5Sinferieurs et superieurs a ce seuil) 

■ Llntensite" definie par la moyenne du module du gradient des 
15 pixels comppsant chaque ESS. ( un seuil note lo est alors defini, 

on repertorie ceux qui sont inferieurs et superieurs a ce seuil). 

■ Le contraste defini par la difference entre le maximum et le 
minimum des pixels. 

A cette etape du procede, tous les elements dits structured sont 
20 connus et repertories conformement aux types de supports structurels 
pre-identifies. lis peuvent etre extraits de I'image d'origine pour laisser 
place a la caracterisation du champ de textures. 

A titre d'exemple, considerons I'image 81 de la Figure 11, reprise 
comme image 101 de la Figure 14a, les zones frontieres sont illustrees 

25 sur I'image 102 de la Figure 14b. Les elements de ces zones frontieres 
sont ensuite demanteles et repartis selon I'orientation de leur gradient 
parmi differentes classes representees par les images 103 a 106 des 
Figures 14c a 14f.. Ces differents elements constituent les elements de 
supports significatifs, et leurs analyses statistiques permettent de 

30 construire lestermesdu composant structurel. 

Dans le cas des Figures 14c a 14f, a titre d'exemple, I'image 103 
correspond a une classe 0 (0° - 45°), I'image 104 correspond a une classe 
1 (45° - 90°), I'image 105 correspond a une classe 2 (90° - 135°) et 
I'image 106 correspond a une classe 3 (135° - 180°); 
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En I'absence d'elements structured, on suppose que llmage est 
texturee avec des motifs plus ou moins reguliers et on procede a une 
caracterisation du champ de la texture. Pour cela, on peut proceder a une 
decomposition de Plmage en trols composantes qui sont : 
5 ■ Une composante texturale contenant les informations 

anarchiques ou aleatoires (comme une image de sable fin, ou 
d'herbe) ou aucun arrangement particulier ne peut §tre decele, 
■ Une composante periodique (comme un pull en jacquard) ou 
une repetition de motifs dominants est observee, 
10 ■ et enfin une composante directionnelle ou les motifs tendent 

globalement vers une ou des directions privilegiees. 

L'objectif etant de caracteriser parfaitement la texture de Hmage a 
partir d'un ensemble de parametres, ces trois composantes sont 
representees par des modeles parametriques. 

15 Ainsi, la texture de llmage 15 reguliere et homogene notee 

IxJ} est decomposee en trois composantes 16, 17, 18 

comme illustre sur la Figure 10, conformement a la relation suivante : 

®(ij)}={Mij)}+{h(ij)}+{e(i,j)}. (16) 

20 

Ou {w(*,y)} est la composante purement aleatoire 16, {h(i,j)} est la 
composante harmonique 17 et {e(i,j)} la composante directionnelle 18. 
L'estimation des parametres de ces trois composantes 16, 17, 18 termine 
cette etape d'extraction dlnformations d'un document. Des methodes 
d'estimation sont decrites dans les paragraphes suivants. 

On decrira d'abord un exemple de procede de detection et 
caracterisation de la composante directionnelle de Timage. 

II s'agit dans un premier temps d'appliquer un modele parametrique 
a la composante directionnelle{e(i,y)}. Elle est constituee d'une somme 

denombrable d'elements directionnels ou chacun est associe a un couple 
d'entiers (a,fi) definissant une orientation d'angle 6 tel que<9 = tan _1 ^/a. 
Autrement dit, e(ij) estdefini par e {ij)= ^e (ap) {ij) ou chaque e^ij) 

est defini par : 
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e (a , fi) {ij) = fXs^{icc-j0)^o^-^^{ifi+ja)) 
+ t?l>{ia-jP)xsm(27u-^^{if} + ja))-\ 



(17) 



ou 



5 



• Ne est le nombre d'elements directionnels associes a (pc,p), 

• v k est la frequence du ^ me element, 

• {s k (ia - j/3)} et {t k (ia - jp)} sont les amplitudes. 



La composante directionnelle {e(*,y)} est ainsi parfaltement definie 
par la connaissance des parametres contenus dans le vecteur Esuivant : 



Pour estimer ces parametres, on utilise le fait que la composante 
directionnelle d'une image est representee dans le domaine spectral par 
un ensemble de droites de pentes orthogonales a celles definies par les 
couples d'entiers (a t> /3,) du modele qui seront notes (a,,^,)^. Ces droites 

peuvent §tre decomposees en un sous ensemble de droites de meme 
pente associe chacun a un element directionnel. 

A titre d'illustration, les Figures 15a et 15b montrent des images 84, 
86 contenant un element directionnel et la Figure 15c montre une image 
88 contenant deux elements directionnels. 

La figure 15al montre une vue 85 en trois dimensions du spectre 
de I'image 84 de la Figure 15a. 

Les Figures 15bl et 15cl montrent des images module de Fourier 
87, 89 respectivement des images 86 et 85 des Figures 15b et 15c. 

Pour calculer les elements du vecteur E, on peut adopter une 
approche fondee sur la projection de I'image suivant differentes directions. 
Le precede consiste dans un premier temps a s'assurer de la presence de 
la composante directionnelle avant d'estimer ses parametres. 

La detection de la composante directionnelle de llmage est basee 
sur la connaissance des proprietes spectrales de celle-ci. Si on assimile le 
spectre de llmage a une image 3D (X,Y, Z), ou (X,Y) represented les 
coordonnees des pixels et Z I'amplitude, les droites qu'on cherche a 
detecter sont representees par un ensemble de pics concentres le long de 




(18) 
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droites dont les pentes sont definies par les couples (a,, J3 t ) recherches 

(cf. figure 15al). Pour determiner ia presence de ces droites, il suffit de 
comptabiliser les pics predominants. Le nombre de ces pics renseigne sur 
la presence ou non de supports directionnels ou harmoniques. 

5 On decrira maintenant un exemple de precede de caracterisation de 

la composante directionnelle. Pour cela, on procede au calcul des couples 
de direction et a la determination du nombre d'elements 

directionnels. 

On effectue d'abord le calcul de la transformee de Fourier Discrete 
10 (TFD) de llmage suivi d'une estimation des droites de pente rationnelle 
observees dans llmage transformee 

Pour cela, on definit un ensemble de projections qui discretise le 
domaine frequentiel en differents angles de projection O ki k fini. Cet 

ensemble de projection peut etre obtenu de differentes manieres. On peut 
15 par exemple chercher tous couples d'entiers premiers entre eux (a k ,0 k ) 

definissant un angle 0 k , tel que 0 k =tan _1 ^-ou O<0 k <— . Un ordre rtel 

que 0<,cc k ,p k <>r permet de controler le nombre de projections. Les 

proprietes de symetrie peuvent ensuite itre utilisees pour obtenir tous les 
couples jusqu'a lit . Ces couples sont illustres sur la Figure 16 pour 

20 0^^,^^3. 

Des projections du module de .la TFD de llmage sont effectuees 
suivant les 0 k . Chaque projection engendre un vecteur de dimension 1, 

V{a k ,p k )i note V k pour simplifier la notation, qui contient les informations 

directionnelles recherchees. 

25 Chaque projection l^est donnee par la formule : 

^M=Z^(' +T A>; +TC 0> 0<i+rj3 k <I-l,0<J+ra k <J-l (19) 
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avec n = -i*j3 k +j*a k etO<\n\<N k etN k =\oc k \(T-i)+\0 k \{L-l)+l f 
ou T*L est la taille de llmage. ^{ij) est le module de transformee de 
Fourier de llmage a caracteriser. 

On seJectionne pour chaque Vk les Elements de fortes energies ainsi 
5 que leurs positions spatiales. Ces elements de forte energie sont ceux qui 
presentent une valeur maximale par rapport a un seuil calcule selon la 
taille de Hmage. 

A cette etape de calcul, le nombre de droites est connu. On en 
deduit le nombre de composantes directionnelles Ne en utilisant les 
0 proprietes spectrales simples de la composante directionnelle d'une image 
texturee. Ces proprietes sont : 

1. Les droites observees dans le domaine spectral d'une 
composante directionnelle sont symetriques par rapport a 
Torigine. On peut par consequent reduire le domaine 

5 dlnvestigation sur une moitie seulement du domaine 

consid^re. 

2. Les maxima retenus dans le vecteur sont candidate a 
representor des droites appartenant a des elements 
directionnels. A partir de la connaissance des positions 

0 respectives des droites sur le module de transformee de 

Fourier discrete TFD, on en deduit le nombre exact 
d'elemente directionnels. La position du maximum droite 
correspond a I'argument du maximum du vecteur Vk, les 
autres droites du meme element sont situ^es tous les 
5 min{L,T>. 

Le mecanisme de projection est illustre sur la Figure 17 pour 
(ofefr) = (2, -1). 

Apres traitement des vecteurs V k et production des couples de 
direction (& ki fi k ) on obtient les hombres de droites associes a chaque 

) couple. 

Ainsi on peut compter le nombre total d'elements directionnels en 
utilisant les deux proprietes sus-mentionnees et on identifie les couples 
d'entiers (a k ,0 k ) associes a ces composantes qui sont les directions 

orthogonales a celles qui ont ete retenues. 
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Pour tous ces couples (a k ,ft k ) I'estimation des frequences de 

chaque element detects est immediate. En effet, si I'on considere 
uniquement les points de rlmage d'origine le long de la droite d'equation 
i& k -jfi k =c, c est la position du maximum dans Vk, et ces points 

5 constituent un signal monodimensionnel (1-D) harmonique d'amplitude 
constante et qui a pour frequence v} a - p) . II suffit alors d'estimer la 

frequence de ce signal 1-D par un precede classique (localisation de la 
valeur maximale sur la TFD 1-D de ce nouveau signal). 

En resume, on peut mettre en ceuvre le procede comportant les 
0 etapes suivantes : 

On determine le maximum de chaque projection. 

Les maximums sont filtres afin de ne garder que ceux superieurs a 
un seuil. 

■ Pour chaque maximum m/ r correspondant a un couple 

■ on determine le nombre de droites associees a ce couple 
d'apres les proprietes decrites plus haut. 

■ on calcule la frequence associee a {a k ,ft k )qu\ correspond 

a I'intersection de la droite maximale (correspondant au 
0 maximum de la projection retenue) avec I'axe horizontal. 

On decrira maintenant le calcul des amplitudes fe k a ' p) (tj\ et {fj a/,) (0} qui 
sont les autres parametres contenus dans le vecteur E mentionne plus 
haut. 

5 Connaissant la direction (&*»A) et ,a frequence on peut 

determiner les amplitudes 3 k a,/3) (c) et i^ip), pour cverifiant la formule 
i& k -jft k = c, en utilisant un procede de demodulation. En effet, s k a - p) (c) 
est egal a la moyenne des pixels le long de la droite d'equation 
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ia k -jfi k =c de la nouvelle image obtenue en multipliant y{ij) par 



cos 



>(«./*) 



lA 2 +A 5 



. Ceci est traduit par I'equation 



4^)(c) = -i- y>(/,y)cos 



i l&-Jfi=C 



A a +A s 



-GA+za) 



(20) 



ou /\&n'est autre que le nbmbre d'elements de ce nouveau signal. 
De la mime maniere, on obtient i k (a ' fi \c) en appliquant I'equation : 



sin 



Ia 2 +A ! 



-(A+yA) 



(21) 



10 



Le procede decrit ci-dessus peut etre resume par les Stapes 
suivantes : 

Pour tout element directionnel {pc k , f} k ) faire 

Pour toute droite (d) calculer 

1. la moyenne des points (i ,j) ponderee par le 

( v {a - p) i * \i 
cos — 2 * . [ip k +jd k ) . Cette moyenne correspond a 

VA + Pk J 
I'estimation du I'amplitude 3j**>(d) 

2. la moyenne des points (i,j) ponderee par le 

( t? (a>/?) / - \l 
sin — £ — —\?Pk + j&k) • Cette moyenne correspond a 
IA +Pk J 

I'estimation du I'amplitude i k (a ' fi) (d) 

Le tableau 3 ci-dessous recapitule les etapes principales du procede de 
projection. 



WO 2005/055086 



PCT/FR2004/003017 



43 



Etape 1. Calculer I'ensemble de couples de projection {a k s/S k )e P r 

Etape 2. Calculer le module de la TFD de llmage y{ij) : 
V(a>,v)=\TFD(y(i,j)} 

Etape 3-Pour tout {a k ,j3 k )e P r , 

calculer le vecteur V k : la projection de y(a>,v) suivant {a k ,p k ) 
d'apres la formule ( 19) 

Etape 4- Detection de droites : 

Pour tout {a k ,j3 k )<=P r , 

• determiner : M k =max$ r k (j)}, 

• calculer n k: , le nombre de pixels de valeurs significatives 
rencontres le long de la projection 

• sauvegarder n k et Jm , llndice du maximum dans V k . 

• selectionner les directions qui justifient le critere 

M k 

-7T >S < 

ou s e est un seuil a definir, dependant de la taille de Hmage, 

Les directions retenues sont considerees comme celles de droites 
recherchees. 

Etape 5- Sauvegarder les couples lft k ,fi k ) recherchfe qui sont les 
orthogonaux des couples (ex k ,/3 k ) retenus dans I'etape 4. 

Tableau 3 



On decrira ci-dessous la detection et la caracterisation des 
5 informations texturales periodiques d'une image, qui sont contenues dans 
la composante harmonique{&(i,/)}. Cette composante peut etre 

representee par une somme finie de sinusoTdes 2-D : 
p 

h (i> J) = 2 C p cos 2*VO>p + jVp)+ D P sin 27z(i<D p + jv p ) , (22) 
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OU 

• c p et d p sont les amplitudes. 

• (<y,,vj est la //*"* frequence spatiale. 

On a represents sur la Figure 18al une image 91 contenant des 
5 composantes periodiques et, sur la Figure 18bl, une image synthetique 
contenant une composante periodique. 

La Figure 18a2 represente une image 92 qui est une image module 
de la TFD presentant un ensemble de pics. . . . . . 

La Figure 18b2 represente une vue 3D, 94, de la TFD qui montre la 
10 presence d'une paire de pics symetriques 95, 96. 

Sur le domaine spectral, la composante harmonique apparait ainsi 
comme des paires de pics isoles symetriques par rapport a I'origine (cf. 
Figure 18 (a2)-(b2)). Cette composante est le reflet de I'existence de 
periodicites dans llmage. 

15 Les informations que Ton cherche a determiner sont les elements 

du vecteur : 

H = ^,{c pi D p ,m pi v P Yj (23) 

Pour cela on commence par detecter la presence de cette 
composante periodique dans llmage module de Fourier et on estime 
20 ensuite ses parametres. 

La detection de la composante periodique consiste a determiner la 
presence de pics isoles sur llmage module de la TFD. On opere de la 
meme maniere que dans le cas de la determination de la composante 
directionnelle. D'apres le procede decrit dans le tableau 1, si la valeur rib 
25 obtenue dans la phase 4 du procede decrit dans le tableau 1 est 
inferieure a un seuil, alors on est en presence de pics isoles qui 
caracterisent la presence de composante harmonique plutot que de pics 
formant une droite continue. 

La caracterisation de la composante periodique revient a localiser 
30 les pics isoles sur llmage module de la TFD. 



WO 2005/055086 



PCT/FR2004/003017 



45 



10 



Ces frequences spatiales (d> p ,v p ) correspondent a la position de ces 



pics : 



(d> p ,v p )= argmax ^(o), v) 



(co.v) 



(24) 



Pour le calcul des amplitudes (c p ,D p ), on utilise un procede de 

demodulation comme pour estimer les amplitudes de la composante 
directionnelle. 

Pour chaque element periodique de frequence (& p ,v p ), I'amplitude 

correspondante est identique a la moyenne des pixels de la nouvelle 
image obtenue en multipliant llmage {y(i,j)} par cos(ftb # + jv p ). Ceci est 

traduit par les formules suivantes : 

(25) 



I m r-i • 



(26) 



En resume^ un proc6d6 d'estimation de la composante periodique 
15 comprend les etapes suivantes : 



Etape 1. Localiser les pics isoles dans la deuxieme moitie de 
llmage module de Fourier et compter leur nombre 



Etape 2. Pour tout pic detect^ : 

■ Calculer sa frequence a I'aide de la formule (24) 

■ Calculer son amplitude a I'aide de la formule (25 - 
26) 



Les dernieres informations a extraire sont contenues dans la 
composante purement aleatoire {w{i,j)}. Cette composante peut etre 
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representee par un modele autoregressif 2-D de support demi-plan non 
symetrique (DPNS) fini defini par I'equation aux differences suivante: 

AU) = ~ Ya.Ai-kJ-lhuiu) (27) 

ou Kfltw>*„ sont les parametres a determiner pour tout (k,/) 
5 appartenant a 

Sajt ={(k,l)/k = 0, \<.l<.M}Kjik,l)ll<.k<,N,-M<.l^M}. Le COUple 

(A/,M) s'appelle I'ordre du modele. 

• {u(i,j)} est un bruit blanc gaussien de variance finie <j\ . 

Les parametres du modele sont donnes par : 
10 W = lN,M\<rl,{a k X ^ } (28) 

Les methodes d'estimation des elements de W sont nombreuses 
comme par exemple I'algorithme de Levinson 2D ou alors les methodes 
adaptatives du type moindres carres (MCR). 

On decrira maintenant un proced6 de caracterisation de la couleur 
15 d'une image dont on veut extraire des termes ti representant des 
caract^ristiques iconiques de cette image, la couleur etant un exemple 
particulier de ces caracteristiques qui peuvent comprendre d'autres 
caracteristiques telles que les moments alg^briques ou geometriques, les 
proprietes statistiques, les proprietes spectrales des moments de pseudo- 
20 Zernicke. 

La methode est fondee sur la caracterisation perceptuelle de la 
couleur. En premier lieu on effectue une transformation des composantes 
de la couleur de llmage de I'espace RVB (Rouge, Vert, Bleu) encore 
d£nomme RGB, vers I'espace TSV (Teinte Saturation Valeur) encore 

25 denomme HSV. On obtient ainsi trois composantes : Teinte, Saturation, 
Valeur. A partir de ces trois composantes on determine N couleurs ou 
composantes iconiques de Hmage. Chaque composante iconique Ci est 
representee par un vecteur de M valeurs . Ces valeurs represented la 
distribution angulaire et annulaire des points representant chaque 

30 composante ainsi que le nombre de points de la composante en question. 

La methode developpee est illustree par la Figure 19 avec a titre 
d'exemple N =16 et M= 17 . 
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Dans une premiere etape principale 110, a partir d'une image 11 de 
I'espace RGB, on procede a une transformation de llmage 111 de I'espace 
(R,G,B) a I'espace HSV (etape 112) pour obtenir une image dans I'espace 
5 HSV. 

Le modele HSV peut etre defini de la facon suivante. 

Teinte (H) : varie de [0 360] , et chaque angle represente une 

teinte. 

10 Saturation (S) : varie de [0 1], elle mesure la purete des 

couleurs, et permet de distinguer les couleurs "vives", "pastels", ou 
"delavees ". 

Valeur (V) : Elle prend des valeurs de [0 1], elle indique si une 

couleur est claire ou sombre et dans quelle mesure elle se 
15 rapproche du blanc ou du noir. 

Le modele HSV est une transformation non lineaire du modele de 
I'espace (R,G,B) .L'ceil humain peut distinguer 128 teintes ,130 
saturations , et 23 ombres . 

Pour le Blanc V=l et S=0 , le noir a une valeur V=0 tandis que la 
20 teinte //et la saturation Ssont indeterminees. 
Lorsque 1^=1 et 5=1 on a une couleur pure. 

Chaque couleur est obtenue en rajoutant du blanc ou du noir a la 
couleur pure. 

Pour avoir des couleurs plus claires on reduit Set on garde //et V, 
25 par contre, pour des couleurs foncees on rajoute du noir en reduisant l/et 
on garde //et S. 

Le passage de llmage couleur exprimee dans les coordonnees 
(R,G,B) en une image exprimee dans I'espace (H,S, V) (Teinte, Saturation, 
Valeur) s'effectue de la facon suivante : 

30 
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Pour tout point de coordonnee (i,j) et de valeur (Rk,Bk,Gk) on 
produit un point de coordonnees (i,j) et valeur (Hk,Sk,Vk) avec : 



V k =max(R k ,B k ,G k ) 

= V k -mm(R k ,G k ,B k ) 



° k Bk si V k est egal*** 



V k -mm(R k ,G k ,B k ) 

Hk = Y+- Bk 7 n \ t> \ si^estegalaG* 

V k -mm(R k> G k ,B k ) 

4+ R k~ G k si y est 6 d kB 

< V k -min(R k ,G k ,B k ) 



On procede ensuite a une partition de I'espace HSV (etape 113). 



A partir des valeurs de Teinte, Saturation, Valeur , on a defini N couleurs. 
20 Dans le cas ou N est egal a 16, on a : Noir, Blanc, Gris clair, Gris fonce, 

Gris moyen, Rouge, Rose, Orange, Marron, Olive, Jaune, Vert, Bleu Ciel , 

Bleu-vert, Bleu , Pourpre, Magenta. 

Pour chaque pixel on evalue a quelle couleur il appartient. Ensuite 

on calcule le nombre de points de chaque couleur. 
25 Dans une deuxieme etape principale 120, on procede a une 

caracterisation des partitions obtenues lors de la premiere etape principale 

110. 

Dans cette etape 120, on cherche a caracteriser chaque partition Ci 
obtenue precedemment. Une partition est definie par sa composante 

30 iconique et par les coordonnees des pixels qui la constituent. La 
description d'une partition est fondee sur la caracterisation de la 
repartition spatiale de ces pixels (nuage de points). La methode 
commence par le calcul du centre de gravite, I 'axe principal du nuage de 
points et I'axe perpendiculaire a cet axe. Le nouveau repere est utilise 

35 comme reference dans la decomposition de la partition Ci en plusieurs 
sous-partitions qui sont representees par le pourcentage des points 
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constituant chacune des sous-partitions. Le processus de caracterisation 
d'une partition Ci est le suivant : 

-calculer le centre de gravite et Tangle d'orientation des 
composantes Ci definissant le repere de partitionnement, 

5 - calculer la distribution angulaire des points de la partition Ci dans 

les N directions dans le sens contraire des aiguilles d'une montre, en N 
sous-partitions definies par : 

rfto 360 2x360 ix360 (N-l)x360 N 
K ' N ' N ' N ' N ; 

10 - partitionner I'espace de I'image en carres de rayons 

concentriques, avec calcul dans chaque rayon du nombre de points 
correspondant a chaque composante iconique. 

Le vecteur caracteristique est obtenu a partir du nombre de points 
de chaque repartition de couleur Ci, du nombre de points dans les 08 
15 sous-repartitions angulaires ainsi que du nombre de points de I'image. 

Ainsi le vecteur caracteristique est represents par 17 valeurs dans 
I'exemple considered 

Sur la Figure 19, on a illustre la deuxieme etape 120 de traitement 
a partir des composantes iconiques CO a C15 en montrant pour les 

20 composantes CO (module 121) et C15 (module 131) les differentes etapes 
effectuees, a savoir le partitionnement angulaire 122, 132 conduisant a un 
nombre de points dans les 8 orientations considerees (etape 123, 133) et 
le partitionnement annulaire 124, 134 conduisant a un nombre de points 
dans les 8 rayons considered (etape 125, 135), ainsi que la prise en 

25 compte du nombre de pixels de composante CO respectivement C15 dans 
I'image (etape 126, respectivement 136). 

Les etapes 123, 125, 126 conduisent a la production de 17 valeurs 
pour la composante CO (etape 127) tandis que les etapes 133, 135, 136 
conduisent a la production de 17 valeurs pour la composante C15 (etape 
30 137). 

Naturellement, le processus est analogue pour les autres 
composantes CI a C14. 
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Les Figures 20 et 21 illustrent le fait que le procede d£crit ci-dessus 
est invariant a la rotation. 

Ainsi, dans I'exemple de la Figure 20, I'image est partitionnee en 
deux sous-ensembles, Tun contenant les croix x, I'autre les ronds 0. Apres 
5 calcul du centre de gravity ainsi que de Tangle d'orientation 9, on obtient 
le repere d'orientation qui permettra d'obtenir les 04 sous-repartitions 
angulaires (0°, 90°, 180°, 270°). 

Par la suite, on effectue une repartition annulaire, on calcule le 
nombre de points dans un rayon egal a 1 puis 2. On obtient le. vecteur V0 
10 caracteristique de I'image de la Figure 20 : 19 ; 6 ; 5 ; 4 ; 4 ; 8 ; 11. 

L'image de la Figure 21 est obtenue en appliquant une rotation de 
90° a I'image de la Figure 20. En appliquant le procede ci-dessus a I'image 
de la Figure 21, on obtient un vecteur VI caracterisant cette derniere qui 
montre que la rotation n'influence par le vecteur caracteristique. Cela 
15 permet de conclure que la methode est invariante a la rotation. 

Comme indique plus haut, les methodes permettant d'obtenir pour 
une image les termes repn§sentant les couleurs dominantes, les proprietes 
texturales ou les structures des zones dominantes de I'image, peuvent 
§tre appliquees aussi bien sur la totalite de I'image que sur des portions 
20 de I'image. 

On decrira brievement ci-dessous des processus de segmentation 
d'un document qui permettent de produire les portions de I'image a 
caracteriser. 

Selon une premiere technique possible, on procede a une 
25 decomposition statique. L'image est decomposed en blocs avec 
recouvrement ou sans recouvrement. 

Selon une deuxieme technique possible, on procede a une 
decomposition dynamique. Dans ce cas, la decomposition de l'image en 
portions est fonction du contenu de I'image. 
30 Selon un premier exemple de technique de decomposition 

dynamique, les portions sont produites a partir des germes qui sont les 
points de singularity de I'image (les points d'inflexions). On commence par 
calculer les germes, qui sont ensuite fusionnes pour qu'il n'en reste qu'un 
nombre reduit et enfin les points de I'images sont fusionnes aux germes 
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ayant les m@mes proprietes visuelles (statistiques) pour produire les 
portions ou les segments de I'image a caracteriser. 

Selon une autre technique faisant appel a une segmentation 
hierarchique, les points de I'image sont fusionnes pour former les n 
5 premieres classes. Ensuite les points de chacune des classes sont 
decomposes en m classes et ainsi de suite jusqu'a atteindre le nombre de 
classes desire. Lors de la fusion, les points sont affectes a la classe la plus 
proche. Une classe est representee par le centre de gravite et/ou un 
delimiteur (boite englobante, segment, courbe, ...)• 
10 On decrira maintenant les Stapes principals d'un procede de 

caracterisation des formes d'une image. 

La caracterisation de la forme s'effectue en plusieurs etapes : 

Pour une suppression d'effet de zoom ou variation du aux 
mouvement des elements non rigides de I'image (mouvement des levres, 
15 des feuilles d'arbre, ...), on procede par une multiresolution suivie d'une 
decimation de I'image. 

Pour une reduction de j'effet de translation, I'image ou la portion de 
llmage est representee par sa Transformee de Fourier. 

Pour une reduction de I'effet de zoom, I'image est definie dans 
20 I'espace logarithmique polaire. 

On peut mettre en ceuvre les etapes suivantes : 
a/ multiresolution f = wavelet(I,n) ; ou I est I'image de depart et n est le 
nombre de decompositions 
b/ projection de I'image dans I'espace logPolaire: 
25 g(l,m) = f(i,j) avec i = l*cos(m) et j = l*sin(m) 

c/ calcul de la transformee de Fourier de g : H = FFT(g) ; 
d/ caracterisation de H : 

dl/ projection de H dans plusieurs directions (0, 45, 90 , ...) : le resultat 
est un ensemble de vecteurs dont la dimension est egale a la dimension 
30 du segment de projection 

d2/ calcul des proprietes statistiques de chaque vecteur de projection 
(moyenne, variance, les moments). 

Le terme representant la forme est constitue des valeurs des proprietes 
statistiques de chaque vecteur de projection. 
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R R/F1M DICATTONS 

1. Procede d'indexation de documents multimedias, caracterise en 
5 ce qu'il comprend les etapes suivantes : 

(a) identification et extraction pour chaque document de termes ti 
constitues par des vecteurs caracterisant des proprietes du document 
multimedia a indexes telles que la forme, la texture, la couleur ou la 
structure d'une image, I'energie, le taux d'oscillation ou des 
informations frequentielles d'un signal audio, ou un groupe de 
caracteres d'un texte , 

(b) stockage des termes ti caracterisant des proprietes du document 
multimedia dans une base de termes comprenant P termes, 

(c) determination d'un nombre maximum N de concepts souhaites 
regroupant les termes tt les plus pertinents, N etant un nombre 
entier inferieur a P, et chaque concept q etant prevu pour regrouper 
tous les termes voisins du point de vue de leurs caracteristiques, 

(d) calcul de la matrice T de distances entre les termes tj de la base de 
termes, 

(e) decomposition de I'ensemble P des termes tt de la base de termes en 
N parties Pj (1 <, j<N) telles que P = PI UP 2 " UPj ... UP N , chaque 
partie P 5 comprenant un ensemble de termes tg et etant representee 
par un concept q, les termes ti etant repartis de telle fagon que les 
termes les plus eloignes se trouvent dans des parties P (/ P m distinctes 
et les termes proches se trouvent dans la m§me partie Pi, 

(f) structuration du dictionnaire de concepts de maniere a constituer un 
arbre binaire ou les feuilles contiennent les concepts q du 
dictionnaire et les nceuds de I'arbres contiennent les informations 
necessaires a la scrutation de I'arbre lors d'une phase ^identification 
d'un document par comparaison avec les documents precedemment 
indexes, et 

(g) construction d'une base d'empreintes constituee de I'ensemble des 
concepts q representant les termes ti des documents a indexer, 
chaque document etant associe a une empreinte qui lui est propre. 
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2. Procede d'indexation selon la revendicatlon 1, caracterise en ce 
que Ton associe a chaque concept q de la base d'empreintes un ensemble 
d'informatlons comprenant le nombre NbT de termes dans les documents 
ou le concept q est present. 

5 

3. Procede d'indexation selon la revendicatlon 1 ou la revendication 
2, caracterise en ce que pour chaque document ou un concept q est 
present, on enregistre une empreinte du concept q dans le document, 
cette empreinte comprenant la frequence d'occurrence du concept q, 

10 I'identification des concepts qui sont voisins du concept q dans le 
document et un score qui est une valeur moyenne des mesures de 
similarites entre le concept q et les termes ti du document qui sont les 
plus proches du concept q. 

15 4. Procede d'indexation selon I'une quelconque des revendlcations 

1 a 3, caracterise en ce qu'il comprend une etape d'optimisation de la 
partition de I'ensemble P des termes de la base de termes pour 
decomposer cet ensemble Pen M classes Q (1 < i < M, avec M < P), de 
maniere a reduire I'erreur de la repartition de I'ensemble P des termes de 

20 la base de termes en N parties (Pi, P2,... Pn) ou chaque partie P t est 
representee par le terme tj qui sera pris comme concept q, I'erreur 

commise e etant telle que e = JT*r. ou e t . = ^rf 2 (*,,*,) est I'erreur 
commise lorsqu'on remplace les termes tj d'une partie Pi par tj. 

25 5. Procede d'indexation selon la revendication 4, caracterise en ce 

qu'il comprend les etapes suivantes : 

(i) on decompose I'ensemble P de termes en deux parties Pi et P 2 ; 

(ii) on determine les deux termes les plus eloignes tj et tj de I'ensemble 
P correspondant a la plus grande distance Dij de la matrice T de 

30 distances ; 

(iii) pour chaque terme t k de I'ensemble P, on examine si la distance D ta 
entre le terme tket le terme tj est plus petite que la distance Dkj entre 
le terme tk et le terme tj, si c'est le cas on affecte le terme tj< a la 
partie Pi et si ce n'est pas le cas on affecte le terme tk a la partie P 2 ; 
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(iv) on itere I'ebpe (i) jusqu'a I'obtention du nombre N de points Pi 
souhaite et a chaque iteration on applique les etapes (ii) et (iii) sur 
les termes des parties Pi et P 2 . 

5 6. Precede" d'indexation selon la revendication 4 ou la revendication 

5, caracterise en ce qu'il comprend une optimisation a partir des N parties 
disjointes \ Pi, P2,... Pnt de I'ensemble P ainsi que des N termes <iti, t 2/ tw r 
qui les represented pour reduire I'erreur de decomposition de I'ensemble 
P en N parties, et en ce qu'il comprend les etapes suivantes : 

10 

(i) calcul des centres de gravity Q des parties Pi 

(ii) calcul des erreurs eQ = ^d 2 (C t ,tj) et etj = ^d 2 (t lt tj) lorsqu'on 

remplace les termes tj de la partie P t respectivement par Q et par % 

comparaison de etj et eq et remplacement de ti par Q si eg <, etj, 
calcul de la nouvelle matrice T de distances entre les termes ti de la 
base de termes et processus de decomposition de I'ensemble P des 
termes de la base de termes en N parties, sauf si une condition 

d'arret est remplie avec — ~ 601+1 < seuil, ou ect represente I'erreur 
commise a I'instant t. 



15 (iii) 
(iv) 



20 



7. Precede d'indexation selon I'une quelconque des revendications 
1 a 6, caracterise en ce que pour effectuer une structuration du 
dictionnaire de concepts, on produit de facon iterative a chaque iteration 
une carte de navigation en commengant par scinder I'ensemble des 
concepts en deux sous-ensembles, puis en selectionnant un sous- 
ensemble a chaque iteration jusqu'a I'obtention du nombre de groupes 
souhait£ ou jusqu'a ce qu'un critere d'arr§t soit satisfait. 

8. Procede d'indexation selon la revendication 7, caracterise en ce 
que le critere d'arret est constitue par le fait que les sous-ensembles 
obtenus sont tous homogenes avec un ecart-type faible. 

9. Procede d'indexation selon la revendication 7 ou la revendication 
8, caracterise en ce que lors de la structuration du dictionnaire de 
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concepts, on determine des indicateurs de navigation a partir d'une 
matrice M = [ci, C2/... c N ] e SRP* n de I'ensemble C des concepts q e 9t p ou 
q represente un concept de p valeurs, selon les etapes suivantes : 
(i) on calcule un representant wde la matrice M 

5 (ii) on calcule la matrice de covariance M entre les elements de la 

matrice M et le representant wde la matrice M, 
(Hi) on calcule un axe de projection */des elements de la matrice M, 
(iv) on calcule la valeur pi = d(u,Q ) - d(u, w) et on decompose 

I'ensemble de concepts C en deux sous-ensembles CI et C2 de la 
10 maniere suivante : 

(c t e CI si pi ^ 0 
c, e C2 si pi > 0 



15 (v) on stocke dans le nceud associe a C les informations {u, w, |pl| 7 p2} 
ou pi est le maximum de tous les pi ^ 0 et p2 est le minimum de 
tous les pi > 0, I'ensemble des informations {u, w, |pl|, p2} 
constituant les indicateurs de navigation dans le dictionnaire de 
concept. 

10. Precede d'indexation selon I'une quelconque des revendications 
1 a 9, caracterise en ce que Ton analyse a la fois les composantes 
structurelles et les complements de ces composantes structurelles 
constitue par les composantes texturales d'une image du document, et en 
ce que : 

(a) lors de I'analyse des composantes structurelles de I'image 
(al) on procede a une repartition des zones frontieres des structures de 
I'image en differentes classes selon I'orientation de la variation locale 
d'intensite de maniere a definir des elements de support structurel 
(ESS) de I'image, et 
(a2) on procede par analyse statistique a la construction de termes 
constitues par des vecteurs decrivant les proprietes locales et 
globales des elements de support structurels, 
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(b) lors de I'anaiyse des composantes texturales de I'image 

(bl) on precede a une detection et une caracterisation parametrique 

d'une composante purement aleatoire de I'image, 
5 (b2) on procede a une detection et une caracterisation parametrique 

d'une composante periodique de I'image, 
(b3) on procede a une detection et une caracterisation parametrique 

d'une composante directionnelle de I'image, 

10 (c) on regroupe dans un nombre limite de concepts Pensemble des 
elements descriptifs de I'image constitues par d'une part les termes 
decrivant les proprietes locales et globales des elements de support 
structured et d'autre part les parametres des caracterisations 
parametriques des composantes aleatoire, periodique et 

15 directionnelle definissant les composantes texturales de I'image, et 

(d) on definit pour chaque document une empreinte a partir des 
occurrences, des positions et des frequences desdits concepts. 

20 11. Procede d'indexation selon la revendication 10, caracterise en 

ce que les proprietes locales des elements de support structurels prises en 
compte pour la construction de termes comprennent au moins le type de 
support choisi parmi une bande lineaire ou uh arc de courbe, les 
dimensions en longueur et largeur du support, la direction principale du 

25 support et la forme et les proprietes statistiques des pixels constituant le 
support. 

12. Procede d'indexation selon la revendication 10 ou la 
revendication 11, caracterise en ce que les proprietes globales des 

30 elements de support structurels prises en compte pour la construction de 
termes comprennent au moins le nombre de chaque type de supports et 
leur disposition spatiale. 

13. Procede d'indexation selon I'une quelconque des revendications 
35 10 a 12, caracterise en ce que lors de I'anaiyse des composantes 

structurelles de I'image on procede a un test prealable de detection de la 
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presence d'au moins une structure dans I'image et, en cas d'absence de 
structure, on passe directement a I'etape de I'analyse des composantes 
texturales de I'image. 



10 a 13, caracterise en ce que pour proceder a une repartition des zones 
frontieres des structures de I'image en differentes classes, a partir de 
I'image numerisee definie par I'ensemble des pixels y(i,j) ou (i,j) e 1x3, 
avec I et J designant respectivement le nombre de lignes et le nombre de 
10 colonnes de I'image, on calcule I'image gradient vertical g v (i,j) avec (i,j) e 
I x J et I'image gradient horizontal gh avec (i,j) e I x 3 et on procede au 
partitionnement de I'image selon I'orientation locale de son gradient en un 
nombre fini de classes equidistantes, I'image contenant I'orientation du 
gradient etant definie par la formule 



on identifie les classes constituant des regions de support susceptibles de 
contenir des elements de support significatifs, et a partir des regions de 
20 support, on determine les elements de support significatifs et on les 
repertorie selon des criteres predetermines. 

15. Procede d'indexation selon I'une quelconque des revendications 
1 a 9, caracterise en ce que lors de I'indexation d'un document multimedia 

25 comportant des signaux video, on choisit des termes tj constitues par des 
images-cles representant des groupes d'images homogenes consecutives, 
et on determine des concepts q par regroupement de termes tj. 

16. Procede d'indexation selon la revendication 15, caracterise en 
ce que pour determiner des images-cles constituant des termes t} , on 

30 elabore d'abord un vecteur score VS comprenant un ensemble d'elements 
VS(i) materialisant la difference ou la similarite entre le contenu d'une 
image d'indice i et celui d'une image d'indice i-1, et on analyse le vecteur 
score VS afin de determiner les images-cles qui correspondent aux 
maximums des valeurs des elements VS(i) du vecteur score VS. 



5 



14. Procede d'indexation selon I'une quelconque des revendications 



15 
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17. Procede d'indexation selon la revendication 16, caracterise en 
ce qu'une image d'indice j est consideree comme une image-cle si la 
valeur VSO) de I'element correspondant du vecteur score VS est un 
maximum et que la valeur VS(j) est situee entre deux minimums min G et 

5 min D et que le minimum Ml tel que Ml = (|VS 0 ) - min G| , IVS® - min 
D| ) est superieur a un seuil donne. 

18. Procedg d'indexation selon Tune quelconque des revendicatlons 
1 a 9, caracterise en ce que lors de I'indexation d'un document multimedia 
comportant des composantes audio, on echantillonne et decompose le 

10 document en frames, qui sont ensuite regroupees en clips dont chacun est 
caracterise par un terme ti constitue par un vecteur de parametre. 

19. Procede d'indexation selon la revendication 18, caracterise en 
ce qu'une trame comprend entre environ 512 et 2048 echantillons du 

15 document audio echantillonne. 

20. Procede d'indexation selon la revendication 18 ou la 
revendication 19, caracterise en ce que les parametres pris en compte 
pour la definition des termes tj comprennent des informations temporelles 

20 correspondant a au moins Tun des parametres suivants : I'energie des 
frames du signal audio, I'ecart-type des energies des trames dans les clips, 
le rapport des variations sonores, le rapport de basse energie, le taux 
d'oscillation autour d'une valeur predeterminee, le haut taux d'oscillation 
autour d'une valeur predeterminee, la difference entre le nombre de taux 

25 d'oscillation au-dessus et au-dessous du taux d'oscillation moyen des 
trames de clips, la variance du taux d'oscillation, le rapport des trames 
silencieuses. 

21. Procede d'indexation selon I'une quelconque des revendications 
30 18 a 20, caracterise en ce que les parametres pris en compte pour la 

definition des termes tj comprennent des informations frequentielles 
correspondant a au moins I'un des parametres suivants : le centre de 
gravite du spectre de frequence de la transformee de Fourier courts du 
signal audio, la largeur de bande du signal audio, le rapport entre I'energie 
35 dans une bande de frequence et I'energie totale dans toute la bande de 
frequence du signal audio echantillonne, la valeur moyenne de la variation 
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du spectre de deux trames adjacentes dans un clip, la frequence de 
coupure d'un clip. 

22. Procede d'indexation selon Tune quelconque des revendications 
5 18 a 21, caracterise en ce que les parametres pris en compte pour la 

definition des termes tj comprennent au moins la modulation d'energie a 
4 Hz. 

23. Procede d'indexation selon Tune quelconque des revendications 
10 la 14, caracterise en ce que I'on analyse les formes d'une image d'un 

document selon les etapes suivantes : 

(a) on procede a une multiresolution suivie d'une decimation de I'image, 

(b) on definit I'image dans I'espace logarithmique polaire. 

(c) on represente I'image ou la portion de I'image concernee par sa 
15 transformee de Fourier H, 

(d) on procede a une caracterisation de la transformee de Fourier H de la 
facon suivante : 

(dl) on projette H dans plusieurs directions pour obtenir un ensemble 
de vecteurs dont la dimension est egale a la dimension du 
20 mouvement de projection, 

(d2) on calcule les proprietes statistiques de chaque vecteur de 
projection, et 

(e) on represente la forme de I'image par un terme tj constitue des 
valeurs des proprietes statistiques de chaque vecteur de 
25 projection. 
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